Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

YOLO12 erklärt: Anwendungen und Anwendungsfälle in der Praxis

Abirami Vina

5 Min. Lesezeit

26. Februar 2025

Entdecken Sie YOLO12, das neueste Modell für Computer Vision! Erfahren Sie, wie seine auf Aufmerksamkeit ausgerichtete Architektur und die FlashAttention-Technologie die Objekterkennung in verschiedenen Branchen verbessern.

Computer Vision ist ein Zweig der künstlichen Intelligenz (KI), der Maschinen hilft, Bilder und Videos zu verstehen. Es ist ein Bereich, der sich mit unglaublicher Geschwindigkeit weiterentwickelt, weil KI-Forscher und -Entwickler ständig die Grenzen verschieben. Die KI-Community ist stets bestrebt, Modelle schneller, intelligenter und effizienter zu machen. Einer der neuesten Durchbrüche ist YOLO12, die neueste Ergänzung der YOLO-Modellreihe (You Only Look Once), die am 18. Februar 2025 veröffentlicht wurde.

YOLO12 wurde von Forschern der University at Buffalo, SUNY (State University of New York) und der University of Chinese Academy of Sciences entwickelt. In einem einzigartigen neuen Ansatz führt YOLO12 Aufmerksamkeitsmechanismen ein, die es dem Modell ermöglichen, sich auf die wichtigsten Teile eines Bildes zu konzentrieren, anstatt alles gleichmäßig zu verarbeiten. 

Es verfügt außerdem über FlashAttention, eine Technik, die die Verarbeitung beschleunigt und gleichzeitig weniger Speicher verbraucht, sowie über einen Area-Attention-Mechanismus, der die Art und Weise nachahmt, wie sich Menschen auf natürliche Weise auf zentrale Objekte konzentrieren.

Diese Verbesserungen machen YOLO12n 2,1 % genauer als YOLOv10n und YOLO12m +1,0 % genauer als YOLO11m. Dies geht jedoch mit einem Kompromiss einher: YOLO12n ist 9 % langsamer als YOLOv10n, und YOLO12m ist 3 % langsamer als YOLO11m.

__wf_reserved_inherit
Abb. 1. Ein Beispiel für die Verwendung von YOLO12 zur Objekterkennung.

In diesem Artikel werden wir untersuchen, was YOLO12 auszeichnet, wie es sich von früheren Versionen unterscheidet und wo es eingesetzt werden kann.

Der Weg zur Veröffentlichung von YOLO12

Die YOLO-Modellreihe ist eine Sammlung von Computer-Vision-Modellen, die für die Objekterkennung in Echtzeit entwickelt wurden, d. h. sie können Objekte in Bildern und Videos schnell identifizieren und lokalisieren. Im Laufe der Zeit hat sich jede Version in Bezug auf Geschwindigkeit, Genauigkeit und Effizienz verbessert.

Beispielsweise wurde Ultralytics YOLOv5, das im Jahr 2020 veröffentlicht wurde, weithin verwendet, weil es schnell und einfach benutzerdefiniert zu trainieren und bereitzustellen war. Später verbesserte Ultralytics YOLOv8 dies, indem es zusätzliche Unterstützung für Computer Vision-Aufgaben wie Instanzsegmentierung und Objektverfolgung bot. 

In jüngerer Zeit konzentrierte sich Ultralytics YOLO11 auf die Verbesserung der Echtzeitverarbeitung unter Beibehaltung eines Gleichgewichts zwischen Geschwindigkeit und Genauigkeit. Zum Beispiel hatte YOLO11m 22 % weniger Parameter als YOLOv8m und lieferte dennoch eine bessere Erkennungsleistung auf dem COCO-Datensatz, einem weit verbreiteten Benchmark zur Bewertung von Objekterkennungsmodellen.

Aufbauend auf diesen Fortschritten führt YOLO12 eine Veränderung in der Verarbeitung visueller Informationen ein. Anstatt alle Teile eines Bildes gleich zu behandeln, priorisiert es die relevantesten Bereiche, wodurch die Erkennungsgenauigkeit verbessert wird. Einfach ausgedrückt baut YOLO12 auf früheren Verbesserungen auf und zielt gleichzeitig darauf ab, präziser zu sein.

Hauptmerkmale von YOLO12

YOLO12 führt mehrere Verbesserungen ein, die Computer Vision Aufgaben verbessern und gleichzeitig die Echtzeit-Verarbeitungsgeschwindigkeiten beibehalten. Hier ist ein Überblick über die wichtigsten Funktionen von YOLO12:

  • Aufmerksamkeitszentrierte Architektur: Anstatt jeden Teil eines Bildes gleich zu behandeln, konzentriert sich YOLO12 auf die wichtigsten Bereiche. Dies verbessert die Genauigkeit und reduziert unnötige Verarbeitung, wodurch die Erkennung schärfer und effizienter wird, selbst in unübersichtlichen Bildern.
  • FlashAttention: YOLO12 beschleunigt die Bildanalyse und verbraucht gleichzeitig weniger Speicher. Mit FlashAttention (einem speichereffizienten Algorithmus) optimiert es die Datenverarbeitung, reduziert die Hardwarebelastung und macht Echtzeitaufgaben reibungsloser und zuverlässiger.
  • Residual Efficient Layer Aggregation Networks (R-ELAN): YOLO12 organisiert seine Schichten effizienter mit R-ELAN, was die Art und Weise verbessert, wie das Modell Daten verarbeitet und daraus lernt. Dies macht das Training stabiler, die Objekterkennung schärfer und die Rechenanforderungen geringer, sodass es in verschiedenen Umgebungen effizient läuft.

Um zu verstehen, wie diese Funktionen im wirklichen Leben funktionieren, betrachten Sie ein Einkaufszentrum. YOLO12 kann helfen, Käufer zu verfolgen, Ladendekorationen wie Topfpflanzen oder Werbeschilder zu identifizieren und verlegte oder verlassene Gegenstände zu erkennen. 

Seine aufmerksamkeitsorientierte Architektur hilft ihm, sich auf die wichtigsten Details zu konzentrieren, während FlashAttention sicherstellt, dass er alles schnell verarbeitet, ohne das System zu überlasten. Dies erleichtert es Betreibern von Einkaufszentren, die Sicherheit zu verbessern, Ladenlayouts zu organisieren und das gesamte Einkaufserlebnis zu verbessern.

__wf_reserved_inherit
Abb. 2. Erkennung von Objekten in einem Einkaufszentrum mit YOLO12.

YOLO12 hat jedoch auch einige Einschränkungen, die es zu berücksichtigen gilt:

  • Längere Trainingszeiten: Aufgrund seiner Architektur benötigt YOLO12 im Vergleich zu YOLO11 mehr Trainingszeit.
  • Export-Herausforderungen: Einige Benutzer können auf Schwierigkeiten beim Exportieren von YOLO12-Modellen stoßen, insbesondere bei der Integration in bestimmte Deployment-Umgebungen.

YOLO12’s Leistungs-Benchmarks verstehen

YOLO12 ist in mehreren Varianten erhältlich, die jeweils für unterschiedliche Anforderungen optimiert sind. Kleinere Versionen (Nano und Small) priorisieren Geschwindigkeit und Effizienz und sind somit ideal für mobile Geräte und Edge Computing. Die Medium- und Large-Versionen bieten ein ausgewogenes Verhältnis zwischen Geschwindigkeit und Genauigkeit, während YOLO12x (Extra Large) für hochpräzise Anwendungen wie industrielle Automatisierung, medizinische Bildgebung und fortschrittliche Überwachungssysteme entwickelt wurde.

Mit diesen Variationen bietet YOLO12 je nach Modellgröße unterschiedliche Leistungsstufen. Benchmark-Tests zeigen, dass bestimmte Varianten von YOLO12 YOLOv10 und YOLO11 in Bezug auf die Genauigkeit übertreffen und eine höhere mittlere durchschnittliche Präzision (mAP) erzielen. 

Einige Modelle, wie YOLO12m, YOLO12l und YOLO12x, verarbeiten Bilder jedoch langsamer als YOLO11, was einen Kompromiss zwischen Erkennungsgenauigkeit und Geschwindigkeit darstellt. Trotzdem bleibt YOLO12 effizient und benötigt weniger Parameter als viele andere Modelle, obwohl es immer noch mehr als YOLO11 verwendet. Dies macht es zu einer guten Wahl für Anwendungen, bei denen Genauigkeit wichtiger ist als reine Geschwindigkeit.

__wf_reserved_inherit
Abb. 3. Vergleich von Ultralytics YOLO11 und YOLO12.

Verwendung von YOLO12 über das Ultralytics Python-Paket

YOLO12 wird vom Ultralytics Python-Paket unterstützt und ist einfach zu bedienen, wodurch es sowohl für Anfänger als auch für Profis zugänglich ist. Mit nur wenigen Codezeilen können Benutzer vortrainierte Modelle laden, verschiedene Computer-Vision-Aufgaben für Bilder und Videos ausführen und YOLO12 auch auf benutzerdefinierten Datensätzen trainieren. Das Ultralytics Python-Paket rationalisiert den Prozess und macht komplexe Einrichtungsschritte überflüssig.

Hier sind beispielsweise die Schritte, die Sie durchlaufen würden, um YOLO12 für die Objekterkennung zu verwenden:

  • Installieren Sie das Ultralytics-Paket: Installieren Sie zuerst das Ultralytics Python-Paket, das die Werkzeuge bereitstellt, die für eine effiziente Ausführung von YOLO12 erforderlich sind. Dadurch wird sichergestellt, dass alle Abhängigkeiten korrekt eingerichtet sind.
  • Ein vortrainiertes YOLO12-Modell laden: Wählen Sie die passende YOLO12-Variante (Nano, Small, Medium, Large oder Extra Large) basierend auf dem für Ihre Aufgabe erforderlichen Grad an Genauigkeit und Geschwindigkeit aus.
  • Stellen Sie ein Bild oder Video bereit: Geben Sie eine Bild- oder Videodatei ein, die Sie analysieren möchten. YOLO12 kann auch Live-Video-Feeds für die Echtzeit-Erkennung verarbeiten.
  • Run the detection process: Das Modell scannt die visuellen Daten, identifiziert Objekte und platziert Begrenzungsrahmen um sie herum. Es kennzeichnet jedes erkannte Objekt mit seiner vorhergesagten Klasse und seinem Konfidenzwert.
  • Anpassen der Erkennungseinstellungen: Sie können auch Parameter wie Konfidenzschwellenwerte ändern, um die Erkennungsgenauigkeit und -leistung feinabzustimmen.
  • Ausgabe speichern oder verwenden: Das verarbeitete Bild oder Video, das nun erkannte Objekte enthält, kann gespeichert oder in eine Anwendung zur weiteren Analyse, Automatisierung oder Entscheidungsfindung integriert werden.

Diese Schritte machen YOLO12 einfach zu bedienen für eine Vielzahl von Anwendungen, von Überwachung und Einzelhandels-Tracking bis hin zu medizinischer Bildgebung und autonomen Fahrzeugen.

Praktische YOLO12-Anwendungen

YOLO12 kann dank seiner Unterstützung für Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Pose Estimation und Oriented Object Detection (OBB) in einer Vielzahl von realen Anwendungen eingesetzt werden. 

__wf_reserved_inherit
Abb. 4. YOLO12 unterstützt Aufgaben wie Objekterkennung und Instanzsegmentierung.

Wie bereits erwähnt, priorisieren die YOLO12-Modelle jedoch die Genauigkeit gegenüber der Geschwindigkeit, was bedeutet, dass sie etwas länger für die Verarbeitung von Bildern benötigen als frühere Versionen. Dieser Kompromiss macht YOLO12 ideal für Anwendungen, bei denen Präzision wichtiger ist als Echtzeitgeschwindigkeit, wie z. B.:

  • Medizinische Bildgebung: YOLO12 kann kundenspezifisch trainiert werden, um Tumore oder Anomalien in Röntgenaufnahmen und MRTs mit hoher Genauigkeit zu erkennen, was es zu einem nützlichen Werkzeug für Ärzte und Radiologen macht, die eine präzise Bildanalyse für die Diagnose benötigen.
  • Qualitätskontrolle in der Fertigung: Sie kann helfen, Produktfehler während des Produktionsprozesses zu identifizieren und so sicherzustellen, dass nur hochwertige Artikel auf den Markt kommen, während gleichzeitig Abfall reduziert und die Effizienz verbessert wird.
  • Forensische Analyse: Strafverfolgungsbehörden können YOLO12 feinabstimmen, um Überwachungsmaterial zu analysieren und Beweise zu sammeln. Bei strafrechtlichen Ermittlungen ist Präzision entscheidend, um wichtige Details zu identifizieren.
  • Präzisionslandwirtschaft: Landwirte können YOLO12 verwenden, um die Gesundheit von Feldfrüchten zu analysieren, Krankheiten oder Schädlingsbefall zu erkennen und die Bodenbedingungen zu überwachen. Genaue Bewertungen helfen bei der Optimierung von Anbaustrategien, was zu besseren Erträgen und besserem Ressourcenmanagement führt.

Erste Schritte mit YOLO12

Bevor Sie YOLO12 ausführen, ist es wichtig, sicherzustellen, dass Ihr System die notwendigen Anforderungen erfüllt.

Technisch gesehen kann YOLO12 auf jeder dedizierten GPU (Graphics Processing Unit) ausgeführt werden. Standardmäßig ist FlashAttention nicht erforderlich, sodass es auf den meisten GPU-Systemen ohne diese Funktion funktioniert. Die Aktivierung von FlashAttention kann jedoch besonders nützlich sein, wenn mit großen Datensätzen oder hochauflösenden Bildern gearbeitet wird, da es hilft, Verlangsamungen zu vermeiden, die Speichernutzung zu reduzieren und die Verarbeitungseffizienz zu verbessern. 

Um FlashAttention zu verwenden, benötigen Sie eine NVIDIA-GPU aus einer der folgenden Serien: Turing (T4, Quadro RTX), Ampere (RTX 30-Serie, A30, A40, A100), Ada Lovelace (RTX 40-Serie) oder Hopper (H100, H200).

Unter Berücksichtigung der Benutzerfreundlichkeit und Zugänglichkeit unterstützt das Ultralytics Python-Paket noch keine FlashAttention-Inferenz, da die Installation technisch sehr komplex sein kann. Um mehr über die ersten Schritte mit YOLO12 und die Optimierung seiner Leistung zu erfahren, lesen Sie die offizielle Ultralytics-Dokumentation.

Wesentliche Erkenntnisse

Mit dem Fortschritt der Computer Vision werden Modelle präziser und effizienter. YOLO12 verbessert Computer-Vision-Aufgaben wie Objekterkennung, Instanzsegmentierung und Bildklassifizierung mit aufmerksamkeitszentrierter Verarbeitung und FlashAttention, wodurch die Genauigkeit verbessert und gleichzeitig der Speicherverbrauch optimiert wird.

Gleichzeitig ist Computer Vision zugänglicher denn je. YOLO12 ist einfach über das Ultralytics Python-Paket zu bedienen und eignet sich mit seinem Fokus auf Genauigkeit statt Geschwindigkeit gut für medizinische Bildgebung, industrielle Inspektionen und Robotik – Anwendungen, bei denen Präzision entscheidend ist.

Neugierig auf KI? Besuchen Sie unser GitHub-Repository und interagieren Sie mit unserer Community. Entdecken Sie Innovationen in Sektoren wie KI in selbstfahrenden Autos und Computer Vision in der Landwirtschaft auf unseren Lösungsseiten. Sehen Sie sich unsere Lizenzoptionen an und erwecken Sie Ihre Vision-AI-Projekte zum Leben. 🚀

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert