YOLO12 erklärt: Reale Anwendungen und Anwendungsfälle

Abirami Vina

5 Minuten lesen

26. Februar 2025

Entdecken Sie YOLO12, das neueste Computer Vision Modell! Erfahren Sie, wie seine aufmerksamkeitszentrierte Architektur und die FlashAttention-Technologie die Objekterkennung in verschiedenen Branchen verbessern

Computer Vision ist ein Teilgebiet der künstlichen Intelligenz (KI), das Maschinen hilft, Bilder und Videos zu verstehen. Es ist ein Bereich, der sich in einem unglaublichen Tempo weiterentwickelt, weil KI-Forscher und -Entwickler ständig an die Grenzen gehen. Die KI-Gemeinschaft ist stets bestrebt, Modelle schneller, intelligenter und effizienter zu machen. Einer der jüngsten Durchbrüche ist YOLO12, die neueste Ergänzung der YOLO (You Only Look Once)-Modellreihe, die am 18. Februar 2025 veröffentlicht wurde.

YOLO12 wurde von Forschern der University at Buffalo, SUNY (State University of New York), und der Universität der Chinesischen Akademie der Wissenschaften entwickelt. In einem einzigartigen neuen Ansatz führt YOLO12 Aufmerksamkeitsmechanismen ein, die es dem Modell ermöglichen, sich auf die wichtigsten Teile eines Bildes zu konzentrieren, anstatt alles gleichermaßen zu verarbeiten. 

Außerdem verfügt es über FlashAttention, eine Technik, die die Verarbeitung beschleunigt und gleichzeitig weniger Speicherplatz benötigt, sowie über einen Mechanismus für die Bereichsaufmerksamkeit, der die natürliche Konzentration des Menschen auf zentrale Objekte nachahmen soll.

Durch diese Verbesserungen ist YOLO12n 2,1 % genauer als YOLOv10n und YOLO12m +1,0 % genauer als YOLO11m. Dies hat jedoch einen Nachteil: YOLO12n ist 9 % langsamer als YOLOv10n und YOLO12m ist 3 % langsamer als YOLO11m.

__wf_reserved_inherit
Abb. 1. Ein Beispiel für die Verwendung von YOLO12 bei der Erkennung von Objekten.

In diesem Artikel erfahren Sie, was YOLO12 auszeichnet, wie es sich von früheren Versionen unterscheidet und wo es eingesetzt werden kann.

Der Weg zur Veröffentlichung von YOLO12

Die YOLO-Modellreihe ist eine Sammlung von Computer-Vision-Modellen, die für die Objekterkennung in Echtzeit entwickelt wurden, d. h. sie können Objekte in Bildern und Videos schnell identifizieren und lokalisieren. Im Laufe der Zeit hat sich jede Version in Bezug auf Geschwindigkeit, Genauigkeit und Effizienz verbessert.

Ultralytics YOLOv5 beispielsweise, das 2020 veröffentlicht wurde, fand weite Verbreitung, weil es schnell und einfach zu trainieren und einzusetzen war. Später wurde Ultralytics YOLOv8 noch verbessert, indem es zusätzliche Unterstützung für Computer-Vision-Aufgaben wie Instanzsegmentierung und Objektverfolgung bot. 

In jüngster Zeit konzentrierte sich Ultralytics YOLO11 auf die Verbesserung der Echtzeitverarbeitung, wobei ein ausgewogenes Verhältnis zwischen Geschwindigkeit und Genauigkeit gewahrt wurde. YOLO11m hatte beispielsweise 22 % weniger Parameter als YOLOv8m und lieferte dennoch eine bessere Erkennungsleistung im COCO-Datensatz, einem weit verbreiteten Benchmark zur Bewertung von Objekterkennungsmodellen.

Aufbauend auf diesen Fortschritten führt YOLO12 eine neue Art der Verarbeitung visueller Informationen ein. Anstatt alle Teile eines Bildes gleich zu behandeln, werden die wichtigsten Bereiche priorisiert, was die Erkennungsgenauigkeit verbessert. Einfach ausgedrückt: YOLO12 baut auf früheren Verbesserungen auf und zielt darauf ab, noch präziser zu sein.

Hauptmerkmale von YOLO12

YOLO12 führt mehrere Verbesserungen ein, die Computer-Vision-Aufgaben verbessern, während die Echtzeit-Verarbeitungsgeschwindigkeit intakt bleibt. Hier ist ein Überblick über die wichtigsten Funktionen von YOLO12:

  • Aufmerksamkeitsstarke Architektur: Anstatt jeden Teil eines Bildes gleich zu behandeln, konzentriert sich YOLO12 auf die wichtigsten Bereiche. Dies verbessert die Genauigkeit und reduziert unnötige Verarbeitung, wodurch die Erkennung schärfer und effizienter wird, selbst bei unübersichtlichen Bildern.
  • FlashAttention: YOLO12 beschleunigt die Bildanalyse und benötigt dabei weniger Speicher. FlashAttention (ein speichereffizienter Algorithmus) optimiert die Datenverarbeitung, reduziert die Hardwarebelastung und macht Echtzeitaufgaben reibungsloser und zuverlässiger.
  • Residual Efficient Layer Aggregation Networks (R-ELAN): YOLO12 organisiert seine Schichten effizienter mit Hilfe von R-ELAN, was die Art und Weise verbessert, wie das Modell Daten verarbeitet und daraus lernt. Dies macht das Training stabiler, die Objekterkennung schärfer und die Rechenanforderungen geringer, so dass es in verschiedenen Umgebungen effizient läuft.

Um zu verstehen, wie diese Funktionen im wirklichen Leben funktionieren, betrachten Sie ein Einkaufszentrum. YOLO12 kann dabei helfen, Kunden zu verfolgen, Ladendekorationen wie Topfpflanzen oder Werbeschilder zu identifizieren und verlegte oder liegengelassene Artikel zu erkennen. 

Seine aufmerksamkeitsorientierte Architektur hilft ihm, sich auf die wichtigsten Details zu konzentrieren, während FlashAttention sicherstellt, dass alles schnell verarbeitet wird, ohne das System zu überlasten. Dies erleichtert es den Betreibern von Einkaufszentren, die Sicherheit zu verbessern, die Ladengestaltung zu organisieren und das Einkaufserlebnis insgesamt zu verbessern.

__wf_reserved_inherit
Abb. 2. Erkennung von Objekten in einem Einkaufszentrum mit YOLO12.

Allerdings gibt es bei YOLO12 auch einige Einschränkungen zu beachten:

  • Langsamere Trainingszeiten: Aufgrund seiner Architektur benötigt YOLO12 im Vergleich zu YOLO11 mehr Trainingszeit.
  • Herausforderungen beim Export: Einige Nutzer können beim Export von YOLO12-Modellen auf Schwierigkeiten stoßen, insbesondere wenn sie diese in bestimmte Einsatzumgebungen integrieren wollen.

Verständnis der YOLO12-Leistungsbenchmarks

YOLO12 ist in mehreren Varianten erhältlich, die jeweils für unterschiedliche Anforderungen optimiert sind. Bei den kleineren Versionen (Nano und Small) stehen Geschwindigkeit und Effizienz im Vordergrund, wodurch sie sich ideal für mobile Geräte und Edge Computing eignen. Die mittleren und großen Versionen bieten ein ausgewogenes Verhältnis zwischen Geschwindigkeit und Genauigkeit, während YOLO12x (extra groß) für hochpräzise Anwendungen wie industrielle Automatisierung, medizinische Bildgebung und fortschrittliche Überwachungssysteme konzipiert ist.

Mit diesen Varianten liefert YOLO12 je nach Modellgröße unterschiedliche Leistungsniveaus. Benchmark-Tests zeigen, dass bestimmte Varianten von YOLO12 die Genauigkeit von YOLOv10 und YOLO11 übertreffen und eine höhere durchschnittliche Genauigkeit (mAP) erreichen. 

Einige Modelle, wie YOLO12m, YOLO12l und YOLO12x, verarbeiten Bilder jedoch langsamer als YOLO11, was einen Kompromiss zwischen Erkennungsgenauigkeit und Geschwindigkeit darstellt. Trotzdem bleibt YOLO12 effizient und benötigt weniger Parameter als viele andere Modelle, auch wenn es immer noch mehr als YOLO11 benötigt. Dies macht es zu einer guten Wahl für Anwendungen, bei denen die Genauigkeit wichtiger ist als die reine Geschwindigkeit.

__wf_reserved_inherit
Abb. 3. Vergleich der Ultralytics YOLO11 und YOLO12.

Verwendung von YOLO12 über das Ultralytics-Python-Paket

YOLO12 wird durch das Ultralytics-Python-Paket unterstützt und ist einfach zu bedienen, so dass es sowohl für Anfänger als auch für Profis zugänglich ist. Mit nur wenigen Codezeilen können Benutzer vortrainierte Modelle laden, verschiedene Computer-Vision-Aufgaben auf Bildern und Videos ausführen und YOLO12 auch auf benutzerdefinierten Datensätzen trainieren. Das Ultralytics-Python-Paket rationalisiert den Prozess und macht komplexe Einrichtungsschritte überflüssig.

Hier sind zum Beispiel die Schritte, die Sie durchführen würden, um YOLO12 für die Objekterkennung zu verwenden:

  • Installieren Sie das Ultralytics-Paket: Installieren Sie zunächst das Ultralytics-Python-Paket, das die für die effiziente Ausführung von YOLO12 erforderlichen Werkzeuge bereitstellt. Dies stellt sicher, dass alle Abhängigkeiten korrekt eingerichtet sind.
  • Laden Sie ein vortrainiertes YOLO12-Modell: Wählen Sie die passende YOLO12-Variante (nano, small, medium, large oder extra large) je nach dem Grad der Genauigkeit und Geschwindigkeit, die Sie für Ihre Aufgabe benötigen.
  • Stellen Sie ein Bild oder Video bereit: Geben Sie eine Bild- oder Videodatei ein, die Sie analysieren möchten. YOLO12 kann auch Live-Video-Feeds für die Echtzeit-Erkennung verarbeiten.
  • Starten Sie den Erkennungsprozess: Das Modell scannt die visuellen Daten, identifiziert Objekte und platziert Begrenzungsrahmen um sie herum. Es beschriftet jedes erkannte Objekt mit seiner vorhergesagten Klasse und dem Vertrauenswert.
  • Passen Sie die Erkennungseinstellungen an: Sie können auch Parameter wie die Konfidenzschwellen ändern, um die Erkennungsgenauigkeit und -leistung fein abzustimmen.
  • Speichern oder verwenden Sie die Ausgabe: Das verarbeitete Bild oder Video, das nun erkannte Objekte enthält, kann gespeichert oder in eine Anwendung zur weiteren Analyse, Automatisierung oder Entscheidungsfindung integriert werden.

Dank dieser Schritte kann YOLO12 für eine Vielzahl von Anwendungen eingesetzt werden, von der Überwachung und Verfolgung im Einzelhandel bis hin zur medizinischen Bildgebung und autonomen Fahrzeugen.

Praktische YOLO12-Anwendungen

YOLO12 kann dank seiner Unterstützung für Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Posenschätzung und orientierte Objekterkennung (OBB) in einer Vielzahl von realen Anwendungen eingesetzt werden. 

__wf_reserved_inherit
Abb. 4. YOLO12 unterstützt Aufgaben wie Objekterkennung und Instanzsegmentierung.

Wie bereits erwähnt, hat bei den YOLO12-Modellen jedoch die Genauigkeit Vorrang vor der Geschwindigkeit, was bedeutet, dass sie im Vergleich zu früheren Versionen etwas länger für die Bildverarbeitung benötigen. Dieser Kompromiss macht YOLO12 ideal für Anwendungen, bei denen Präzision wichtiger ist als Echtzeit-Geschwindigkeit, wie z. B.:

  • Medizinische Bildgebung: YOLO12 kann kundenspezifisch trainiert werden, um Tumore oder Anomalien in Röntgenbildern und MRTs mit hoher Genauigkeit zu erkennen, was es zu einem nützlichen Werkzeug für Ärzte und Radiologen macht, die eine präzise Bildanalyse zur Diagnose benötigen.
  • Qualitätskontrolle in der Fertigung: Sie kann dazu beitragen, Produktfehler während des Produktionsprozesses zu erkennen und sicherzustellen, dass nur qualitativ hochwertige Produkte auf den Markt kommen, während gleichzeitig der Ausschuss reduziert und die Effizienz verbessert wird.
  • Forensische Analyse: Strafverfolgungsbehörden können YOLO12 für die Analyse von Überwachungsmaterial und die Sammlung von Beweisen feinabstimmen. Bei strafrechtlichen Ermittlungen ist Präzision entscheidend für die Identifizierung wichtiger Details.
  • Präzisionslandwirtschaft: Landwirte können YOLO12 nutzen, um die Gesundheit der Pflanzen zu analysieren, Krankheiten oder Schädlingsbefall zu erkennen und den Bodenzustand zu überwachen. Genaue Beurteilungen helfen bei der Optimierung von Anbaustrategien und führen zu besseren Erträgen und Ressourcenmanagement.

Erste Schritte mit YOLO12

Bevor Sie YOLO12 starten, sollten Sie sicherstellen, dass Ihr System die notwendigen Voraussetzungen erfüllt.

Technisch gesehen kann YOLO12 auf jeder dedizierten GPU (Graphics Processing Unit) laufen. Standardmäßig ist FlashAttention nicht erforderlich, so dass es auf den meisten GPU-Systemen ohne FlashAttention laufen kann. Die Aktivierung von FlashAttention kann jedoch besonders nützlich sein, wenn Sie mit großen Datensätzen oder hochauflösenden Bildern arbeiten, da es dazu beiträgt, Verlangsamungen zu vermeiden, die Speichernutzung zu reduzieren und die Verarbeitungseffizienz zu verbessern. 

Um FlashAttention zu verwenden, benötigen Sie einen NVIDIA-Grafikprozessor aus einer der folgenden Serien: Turing (T4, Quadro RTX), Ampere (RTX 30 Serie, A30, A40, A100), Ada Lovelace (RTX 40 Serie), oder Hopper (H100, H200).

Um die Benutzerfreundlichkeit und Zugänglichkeit zu gewährleisten, unterstützt das Ultralytics Python-Paket noch nicht die FlashAttention-Inferenz, da die Installation technisch recht komplex sein kann. Wenn Sie mehr über die ersten Schritte mit YOLO12 und die Optimierung seiner Leistung erfahren möchten, lesen Sie die offizielle Ultralytics-Dokumentation.

Die wichtigsten Erkenntnisse

Mit den Fortschritten in der Computer Vision werden die Modelle immer präziser und effizienter. YOLO12 verbessert Computer-Vision-Aufgaben wie Objekterkennung, Instanzsegmentierung und Bildklassifizierung mit aufmerksamkeitsorientierter Verarbeitung und FlashAttention, wodurch die Genauigkeit erhöht und die Speichernutzung optimiert wird.

Gleichzeitig ist die Computer Vision zugänglicher denn je. YOLO12 ist durch das Ultralytics-Python-Paket einfach zu bedienen und eignet sich mit seinem Schwerpunkt auf Genauigkeit statt Geschwindigkeit gut für die medizinische Bildgebung, industrielle Inspektionen und Robotik - Anwendungen, bei denen Präzision entscheidend ist.

Neugierig auf KI? Besuchen Sie unser GitHub-Repository und tauschen Sie sich mit unserer Community aus. Entdecken Sie Innovationen in Bereichen wie KI in selbstfahrenden Autos und Computer Vision in der Landwirtschaft auf unseren Lösungsseiten. Informieren Sie sich über unsere Lizenzierungsoptionen und erwecken Sie Ihre Vision-KI-Projekte zum Leben. 🚀

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert