Entdecken Sie YOLO12, das neueste Modell für Computer Vision! Erfahren Sie, wie seine auf Aufmerksamkeit ausgerichtete Architektur und die FlashAttention-Technologie die Objekterkennung in verschiedenen Branchen verbessern.
Entdecken Sie YOLO12, das neueste Modell für Computer Vision! Erfahren Sie, wie seine auf Aufmerksamkeit ausgerichtete Architektur und die FlashAttention-Technologie die Objekterkennung in verschiedenen Branchen verbessern.
Computer Vision ist ein Teilgebiet der künstlichen Intelligenz (KI), das Maschinen hilft, Bilder und Videos zu verstehen. Es ist ein Bereich, der sich in einem unglaublichen Tempo weiterentwickelt, weil KI-Forscher und -Entwickler ständig an die Grenzen gehen. Die KI-Gemeinschaft ist stets bestrebt, Modelle schneller, intelligenter und effizienter zu machen. Einer der jüngsten Durchbrüche ist YOLO12, die neueste Ergänzung der YOLO (You Only Look Once)-Modellreihe, die am 18. Februar 2025 veröffentlicht wurde.
YOLO12 wurde von Forschern der University at Buffalo, SUNY (State University of New York) und der University of Chinese Academy of Sciences entwickelt. In einem einzigartigen neuen Ansatz führt YOLO12 Aufmerksamkeitsmechanismen ein, die es dem Modell ermöglichen, sich auf die wichtigsten Teile eines Bildes zu konzentrieren, anstatt alles gleichmäßig zu verarbeiten.
Es verfügt außerdem über FlashAttention, eine Technik, die die Verarbeitung beschleunigt und gleichzeitig weniger Speicher verbraucht, sowie über einen Area-Attention-Mechanismus, der die Art und Weise nachahmt, wie sich Menschen auf natürliche Weise auf zentrale Objekte konzentrieren.
Diese Verbesserungen machen YOLO12n 2,1 % genauer als YOLOv10n und YOLO12m +1,0 % genauer als YOLO11m. Dies geht jedoch mit einem Kompromiss einher: YOLO12n ist 9 % langsamer als YOLOv10n, und YOLO12m ist 3 % langsamer als YOLO11m.

In diesem Artikel werden wir untersuchen, was YOLO12 auszeichnet, wie es sich von früheren Versionen unterscheidet und wo es eingesetzt werden kann.
Die YOLO ist eine Sammlung von Computer-Vision-Modellen, die für die Objekterkennung in Echtzeit entwickelt wurden, d. h. sie können Objekte in Bildern und Videos schnell identifizieren und lokalisieren. Im Laufe der Zeit hat sich jede Version in Bezug auf Geschwindigkeit, Genauigkeit und Effizienz verbessert.
Zum Beispiel, Ultralytics YOLOv5das im Jahr 2020 veröffentlicht wurde, weit verbreitet, weil es schnell und einfach zu schulen und einzusetzen war. Später, Ultralytics YOLOv8 verbessert, indem es zusätzliche Unterstützung für Computer-Vision-Aufgaben wie Instanzsegmentierung und Objektverfolgung bietet.
In jüngerer Zeit, Ultralytics YOLO11 konzentrierte sich auf die Verbesserung der Echtzeitverarbeitung unter Beibehaltung eines ausgewogenen Verhältnisses zwischen Geschwindigkeit und Genauigkeit. YOLO11m hatte beispielsweise 22 % weniger Parameter als YOLOv8m und lieferte dennoch eine bessere Erkennungsleistung im COCO , einem weit verbreiteten Benchmark zur Bewertung von Objekterkennungsmodellen.
Aufbauend auf diesen Fortschritten führt YOLO12 eine Veränderung in der Verarbeitung visueller Informationen ein. Anstatt alle Teile eines Bildes gleich zu behandeln, priorisiert es die relevantesten Bereiche, wodurch die Erkennungsgenauigkeit verbessert wird. Einfach ausgedrückt baut YOLO12 auf früheren Verbesserungen auf und zielt gleichzeitig darauf ab, präziser zu sein.
YOLO12 führt mehrere Verbesserungen ein, die Computer Vision Aufgaben verbessern und gleichzeitig die Echtzeit-Verarbeitungsgeschwindigkeiten beibehalten. Hier ist ein Überblick über die wichtigsten Funktionen von YOLO12:
Um zu verstehen, wie diese Funktionen im wirklichen Leben funktionieren, betrachten Sie ein Einkaufszentrum. YOLO12 kann dabei helfen, Kunden track , Ladendekorationen wie Topfpflanzen oder Werbeschilder zu identifizieren und verlegte oder liegengelassene Artikel zu erkennen.
Seine aufmerksamkeitsorientierte Architektur hilft ihm, sich auf die wichtigsten Details zu konzentrieren, während FlashAttention sicherstellt, dass er alles schnell verarbeitet, ohne das System zu überlasten. Dies erleichtert es Betreibern von Einkaufszentren, die Sicherheit zu verbessern, Ladenlayouts zu organisieren und das gesamte Einkaufserlebnis zu verbessern.

YOLO12 hat jedoch auch einige Einschränkungen, die es zu berücksichtigen gilt:
YOLO12 ist in mehreren Varianten erhältlich, die jeweils für unterschiedliche Anforderungen optimiert sind. Kleinere Versionen (Nano und Small) priorisieren Geschwindigkeit und Effizienz und sind somit ideal für mobile Geräte und Edge Computing. Die Medium- und Large-Versionen bieten ein ausgewogenes Verhältnis zwischen Geschwindigkeit und Genauigkeit, während YOLO12x (Extra Large) für hochpräzise Anwendungen wie industrielle Automatisierung, medizinische Bildgebung und fortschrittliche Überwachungssysteme entwickelt wurde.
Mit diesen Varianten liefert YOLO12 je nach Modellgröße unterschiedliche Leistungsniveaus. Benchmark-Tests zeigen, dass bestimmte Varianten von YOLO12 die Genauigkeit YOLOv10 und YOLO11 übertreffen und eine höhere durchschnittliche GenauigkeitmAP) erreichen.
Einige Modelle, wie YOLO12m, YOLO12l und YOLO12x, verarbeiten Bilder jedoch langsamer als YOLO11, was einen Kompromiss zwischen Erkennungsgenauigkeit und Geschwindigkeit darstellt. Trotzdem bleibt YOLO12 effizient und benötigt weniger Parameter als viele andere Modelle, auch wenn es immer noch mehr als YOLO11 benötigt. Dies macht es zu einer guten Wahl für Anwendungen, bei denen die Genauigkeit wichtiger ist als die reine Geschwindigkeit.

YOLO12 wird durch das Python unterstützt und ist einfach zu bedienen, so dass es sowohl für Anfänger als auch für Profis zugänglich ist. Mit nur wenigen Codezeilen können Benutzer vortrainierte Modelle laden, verschiedene Computer-Vision-Aufgaben auf Bildern und Videos ausführen und YOLO12 auch auf benutzerdefinierten Datensätzen trainieren. DasPython rationalisiert den Prozess und macht komplexe Einrichtungsschritte überflüssig.
Hier sind beispielsweise die Schritte, die Sie durchlaufen würden, um YOLO12 für die Objekterkennung zu verwenden:
Diese Schritte machen YOLO12 einfach zu bedienen für eine Vielzahl von Anwendungen, von Überwachung und Einzelhandels-Tracking bis hin zu medizinischer Bildgebung und autonomen Fahrzeugen.
YOLO12 kann dank seiner Unterstützung für Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Pose Estimation und Oriented Object Detection (OBB) in einer Vielzahl von realen Anwendungen eingesetzt werden.

Wie bereits erwähnt, priorisieren die YOLO12-Modelle jedoch die Genauigkeit gegenüber der Geschwindigkeit, was bedeutet, dass sie etwas länger für die Verarbeitung von Bildern benötigen als frühere Versionen. Dieser Kompromiss macht YOLO12 ideal für Anwendungen, bei denen Präzision wichtiger ist als Echtzeitgeschwindigkeit, wie z. B.:
Bevor Sie YOLO12 ausführen, ist es wichtig, sicherzustellen, dass Ihr System die notwendigen Anforderungen erfüllt.
Technisch gesehen kann YOLO12 auf jeder dedizierten GPU (Graphics Processing Unit) laufen. Standardmäßig ist FlashAttention nicht erforderlich, so dass es auf den meisten GPU ohne FlashAttention laufen kann. Die Aktivierung von FlashAttention kann jedoch besonders nützlich sein, wenn Sie mit großen Datensätzen oder hochauflösenden Bildern arbeiten, da es dazu beiträgt, Verlangsamungen zu vermeiden, die Speichernutzung zu reduzieren und die Verarbeitungseffizienz zu verbessern.
Um FlashAttention zu verwenden, benötigen Sie einenGPU aus einer der folgenden Serien: Turing (T4, Quadro RTX), Ampere (RTX 30 Serie, A30, A40, A100), Ada Lovelace (RTX 40 Serie), oder Hopper (H100, H200).
Um die Benutzerfreundlichkeit und Zugänglichkeit zu gewährleisten, unterstützt das Ultralytics Python noch nicht die FlashAttention-Inferenz, da die Installation technisch recht komplex sein kann. Wenn Sie mehr über die ersten Schritte mit YOLO12 und die Optimierung seiner Leistung erfahren möchten, lesen Sie die offizielle Ultralytics .
Mit dem Fortschritt der Computer Vision werden Modelle präziser und effizienter. YOLO12 verbessert Computer-Vision-Aufgaben wie Objekterkennung, Instanzsegmentierung und Bildklassifizierung mit aufmerksamkeitszentrierter Verarbeitung und FlashAttention, wodurch die Genauigkeit verbessert und gleichzeitig der Speicherverbrauch optimiert wird.
Gleichzeitig ist die Computer Vision zugänglicher denn je. YOLO12 ist durch dasPython einfach zu bedienen und eignet sich mit seinem Schwerpunkt auf Genauigkeit statt Geschwindigkeit gut für die medizinische Bildgebung, industrielle Inspektionen und Robotik - Anwendungen, bei denen Präzision entscheidend ist.
Neugierig auf KI? Besuchen Sie unser GitHub-Repository und interagieren Sie mit unserer Community. Entdecken Sie Innovationen in Sektoren wie KI in selbstfahrenden Autos und Computer Vision in der Landwirtschaft auf unseren Lösungsseiten. Sehen Sie sich unsere Lizenzoptionen an und erwecken Sie Ihre Vision-AI-Projekte zum Leben. 🚀