Vision-KI

YOLO12 erklärt: Praxisanwendungen und Anwendungsfälle

Entdecke YOLO12, das neueste Computer-Vision-Modell! Lerne, wie seine aufmerksamkeitsbasierte Architektur und die FlashAttention-Technologie Objekterkennungsaufgaben branchenübergreifend verbessern.

ABAbirami Vina

5 min readFebruary 26, 2025

YOLO12 Objekterkennung in Praxisanwendungen

Computer Vision ist ein Teilbereich der Künstlichen Intelligenz (KI), der Maschinen dabei hilft, Bilder und Videos zu verstehen. Es ist ein Fachgebiet, das in einem unglaublichen Tempo voranschreitet, da KI-Forscher und Entwickler ständig die Grenzen des Machbaren verschieben. Die KI-Community strebt stets danach, Modelle schneller, intelligenter und effizienter zu machen. Einer der neuesten Durchbrüche ist YOLO12, die neueste Ergänzung der YOLO (You Only Look Once) Modellreihe, die am 18. Februar 2025 veröffentlicht wurde.

YOLO12 wurde von Forschern der University at Buffalo, der SUNY (State University of New York) und der University of Chinese Academy of Sciences entwickelt. In einem einzigartigen neuen Ansatz führt YOLO12 Aufmerksamkeitsmechanismen ein, die es dem Modell ermöglichen, sich auf die wesentlichsten Teile eines Bildes zu konzentrieren, anstatt alles gleichmäßig zu verarbeiten.

Es bietet zudem FlashAttention, eine Technik, die die Verarbeitung beschleunigt und gleichzeitig weniger Speicher verbraucht, sowie einen Bereichs-Aufmerksamkeitsmechanismus, der darauf ausgelegt ist, die Art und Weise nachzuahmen, wie Menschen sich natürlicherweise auf zentrale Objekte konzentrieren.

Diese Verbesserungen machen YOLO12n um 2,1 % genauer als YOLOv10n und YOLO12m um 1,0 % genauer als YOLO11m. Dies geht jedoch mit einem Kompromiss einher: YOLO12n ist 9 % langsamer als YOLOv10n und YOLO12m ist 3 % langsamer als YOLO11m.

YOLO12 bei der Objekterkennung

Abb. 1. Ein Beispiel für die Verwendung von YOLO12 zur Objekterkennung.

In diesem Artikel werden wir untersuchen, was YOLO12 anders macht, wie es im Vergleich zu früheren Versionen abschneidet und wo es eingesetzt werden kann.

Link to this sectionDer Weg zur Veröffentlichung von YOLO12#

Die YOLO-Modellserie ist eine Sammlung von Computer-Vision-Modellen, die für die Echtzeit-Objekterkennung entwickelt wurden, was bedeutet, dass sie Objekte in Bildern und Videos schnell identifizieren und lokalisieren können. Im Laufe der Zeit hat sich jede Version in Bezug auf Geschwindigkeit, Genauigkeit und Effizienz verbessert.

Zum Beispiel wurde Ultralytics YOLOv5, das 2020 veröffentlicht wurde, weit verbreitet eingesetzt, da es schnell und einfach für benutzerdefinierte Trainings und Implementierungen war. Später verbesserte Ultralytics YOLOv8 dies durch zusätzliche Unterstützung für Computer-Vision-Aufgaben wie Instanzsegmentierung und Objektverfolgung.

Kürzlich konzentrierte sich Ultralytics YOLO11 darauf, die Echtzeitverarbeitung zu verbessern und dabei ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit zu wahren. Zum Beispiel hatte YOLO11m 22 % weniger Parameter als YOLOv8m und lieferte dennoch eine bessere Erkennungsleistung auf dem COCO-Datensatz, einem weit verbreiteten Benchmark für die Bewertung von Objekterkennungsmodellen.

Aufbauend auf diesen Fortschritten führt YOLO12 einen Wandel in der Verarbeitung visueller Informationen ein. Anstatt alle Teile eines Bildes gleich zu behandeln, priorisiert es die relevantesten Bereiche, was die Erkennungsgenauigkeit verbessert. Einfach ausgedrückt baut YOLO12 auf früheren Verbesserungen auf und zielt darauf ab, präziser zu sein.

Link to this sectionHauptfunktionen von YOLO12#

YOLO12 führt mehrere Verbesserungen ein, die Computer-Vision-Aufgaben verbessern und gleichzeitig Echtzeit-Verarbeitungsgeschwindigkeiten beibehalten. Hier ist ein Überblick über die wichtigsten Funktionen von YOLO12:

Aufmerksamkeitszentrierte Architektur: Anstatt jeden Teil eines Bildes gleich zu behandeln, konzentriert sich YOLO12 auf die wichtigsten Bereiche. Dies verbessert die Genauigkeit und reduziert unnötige Verarbeitung, wodurch die Erkennung schärfer und effizienter wird, selbst bei überladenen Bildern.
FlashAttention: YOLO12 beschleunigt die Bildanalyse und verbraucht dabei weniger Speicher. Mit FlashAttention (einem speichereffizienten Algorithmus) wird die Datenverarbeitung optimiert, was die Hardware entlastet und Echtzeitaufgaben reibungsloser und zuverlässiger macht.
Residual Efficient Layer Aggregation Networks (R-ELAN): YOLO12 organisiert seine Schichten effizienter mit R-ELAN, was die Art und Weise verbessert, wie das Modell Daten verarbeitet und daraus lernt. Dies macht das Training stabiler, die Objekterkennung schärfer und die Rechenanforderungen geringer, sodass es in verschiedenen Umgebungen effizient läuft.

Um zu verstehen, wie diese Funktionen in der Praxis funktionieren, betrachte ein Einkaufszentrum. YOLO12 kann helfen, Käufer zu verfolgen, Ladendekorationen wie Topfpflanzen oder Werbeschilder zu identifizieren und verlegte oder verlassene Gegenstände zu finden.

Seine aufmerksamkeitszentrierte Architektur hilft ihm, sich auf die wichtigsten Details zu konzentrieren, während FlashAttention sicherstellt, dass alles schnell verarbeitet wird, ohne das System zu überlasten. Dies erleichtert es Betreibern von Einkaufszentren, die Sicherheit zu verbessern, das Ladenlayout zu organisieren und das allgemeine Einkaufserlebnis zu steigern.

Objekterkennung in einem Einkaufszentrum mit YOLO12

Abb. 2. Objekterkennung in einem Einkaufszentrum mit YOLO12.

YOLO12 hat jedoch auch einige Einschränkungen, die zu berücksichtigen sind:

Längere Trainingszeiten: Aufgrund seiner Architektur erfordert YOLO12 im Vergleich zu YOLO11 eine längere Trainingszeit.
Export-Herausforderungen: Einige Benutzer können auf Schwierigkeiten beim Exportieren von YOLO12-Modellen stoßen, insbesondere bei der Integration in bestimmte Bereitstellungsumgebungen.

Link to this sectionVerständnis der Leistungsbenchmarks von YOLO12#

YOLO12 ist in mehreren Varianten erhältlich, die jeweils für unterschiedliche Anforderungen optimiert sind. Kleinere Versionen (Nano und Small) priorisieren Geschwindigkeit und Effizienz, was sie ideal für mobile Geräte und Edge Computing macht. Die mittleren und großen Versionen bieten ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit, während YOLO12x (Extra Large) für hochpräzise Anwendungen wie industrielle Automatisierung, medizinische Bildgebung und fortschrittliche Überwachungssysteme konzipiert ist.

Mit diesen Variationen bietet YOLO12 je nach Modellgröße unterschiedliche Leistungsniveaus. Benchmark-Tests zeigen, dass bestimmte Varianten von YOLO12 YOLOv10 und YOLO11 in der Genauigkeit übertreffen und eine höhere mittlere durchschnittliche Präzision (mAP) erreichen.

Einige Modelle wie YOLO12m, YOLO12l und YOLO12x verarbeiten Bilder jedoch langsamer als YOLO11, was einen Kompromiss zwischen Erkennungsgenauigkeit und Geschwindigkeit zeigt. Trotzdem bleibt YOLO12 effizient und erfordert weniger Parameter als viele andere Modelle, auch wenn es mehr verwendet als YOLO11. Dies macht es zu einer großartigen Wahl für Anwendungen, bei denen Genauigkeit wichtiger ist als reine Geschwindigkeit.

Vergleich von Ultralytics YOLO11 und YOLO12

Abb. 3. Vergleich von Ultralytics YOLO11 und YOLO12.

Link to this sectionVerwendung von YOLO12 über das Ultralytics Python-Paket#

YOLO12 wird vom Ultralytics Python-Paket unterstützt und ist einfach zu bedienen, wodurch es sowohl für Anfänger als auch für Profis zugänglich ist. Mit nur wenigen Zeilen Code können Benutzer vortrainierte Modelle laden, verschiedene Computer-Vision-Aufgaben auf Bildern und Videos ausführen und YOLO12 auch auf benutzerdefinierten Datensätzen trainieren. Das Ultralytics Python-Paket optimiert den Prozess und macht komplexe Einrichtungsschritte überflüssig.

Hier sind zum Beispiel die Schritte, die du durchführen würdest, um YOLO12 für die Objekterkennung zu verwenden:

Installiere das Ultralytics-Paket: Installiere zuerst das Ultralytics Python-Paket, das die notwendigen Tools für eine effiziente Ausführung von YOLO12 bereitstellt. Dies stellt sicher, dass alle Abhängigkeiten korrekt eingerichtet sind.
Lade ein vortrainiertes YOLO12-Modell: Wähle die passende YOLO12-Variante (Nano, Small, Medium, Large oder Extra Large) basierend auf der für deine Aufgabe erforderlichen Genauigkeit und Geschwindigkeit.
Stelle ein Bild oder Video bereit: Gib eine Bild- oder Videodatei ein, die du analysieren möchtest. YOLO12 kann auch Live-Videostreams für eine Echtzeiterkennung verarbeiten.
Führe den Erkennungsprozess aus: Das Modell scannt die visuellen Daten, identifiziert Objekte und platziert Begrenzungsrahmen (BBoxes) um sie herum. Es kennzeichnet jedes erkannte Objekt mit seiner vorhergesagten Klasse und seinem Konfidenzwert.
Passe die Erkennungseinstellungen an: Du kannst auch Parameter wie Konfidenzschwellenwerte ändern, um die Erkennungsgenauigkeit und Leistung feinabzustimmen.
Speichere oder verwende die Ausgabe: Das verarbeitete Bild oder Video, das nun erkannte Objekte enthält, kann gespeichert oder für weitere Analysen, Automatisierung oder Entscheidungsfindung in eine Anwendung integriert werden.

Diese Schritte machen YOLO12 einfach einsetzbar für eine Vielzahl von Anwendungen, von Überwachung und Einzelhandelsverfolgung bis hin zu medizinischer Bildgebung und autonomen Fahrzeugen.

Link to this sectionPraktische YOLO12-Anwendungen#

YOLO12 kann dank seiner Unterstützung für Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Posenschätzung und orientierte Objekterkennung (OBB) in einer Vielzahl von realen Anwendungen eingesetzt werden.

YOLO12 unterstützt Aufgaben wie Objekterkennung und Instanzsegmentierung

Abb. 4. YOLO12 unterstützt Aufgaben wie Objekterkennung und Instanzsegmentierung.

Wie wir jedoch bereits besprochen haben, priorisieren YOLO12-Modelle Genauigkeit gegenüber Geschwindigkeit, was bedeutet, dass sie etwas länger brauchen, um Bilder im Vergleich zu früheren Versionen zu verarbeiten. Dieser Kompromiss macht YOLO12 ideal für Anwendungen, bei denen Präzision wichtiger ist als Echtzeitgeschwindigkeit, wie zum Beispiel:

Medizinische Bildgebung: YOLO12 kann benutzerdefiniert trainiert werden, um Tumore oder Anomalien in Röntgenaufnahmen und MRTs mit hoher Genauigkeit zu erkennen, was es zu einem nützlichen Werkzeug für Ärzte und Radiologen macht, die eine präzise Bildanalyse für die Diagnose benötigen.
Qualitätskontrolle in der Fertigung: Es kann helfen, Produktfehler während des Produktionsprozesses zu identifizieren, um sicherzustellen, dass nur qualitativ hochwertige Artikel auf den Markt gelangen, während Abfall reduziert und die Effizienz verbessert wird.
Forensische Analyse: Strafverfolgungsbehörden können YOLO12 feinabstimmen, um Überwachungsaufnahmen zu analysieren und Beweise zu sammeln. Bei strafrechtlichen Ermittlungen ist Präzision entscheidend für die Identifizierung wichtiger Details.
Präzisionslandwirtschaft: Landwirte können YOLO12 nutzen, um die Pflanzengesundheit zu analysieren, Krankheiten oder Schädlingsbefall zu erkennen und Bodenbedingungen zu überwachen. Genaue Bewertungen helfen bei der Optimierung von Anbaustrategien, was zu besseren Erträgen und einem besseren Ressourcenmanagement führt.

Link to this sectionErste Schritte mit YOLO12#

Bevor du YOLO12 ausführst, ist es wichtig sicherzustellen, dass dein System die erforderlichen Voraussetzungen erfüllt.

Technisch gesehen kann YOLO12 auf jeder dedizierten GPU (Graphics Processing Unit) ausgeführt werden. Standardmäßig erfordert es kein FlashAttention, sodass es auf den meisten GPU-Systemen auch ohne dieses funktioniert. Die Aktivierung von FlashAttention kann jedoch besonders bei der Arbeit mit großen Datensätzen oder hochauflösenden Bildern nützlich sein, da es dazu beiträgt, Verlangsamungen zu vermeiden, den Speicherverbrauch zu senken und die Verarbeitungseffizienz zu verbessern.

Um FlashAttention zu verwenden, benötigst du eine NVIDIA-GPU aus einer dieser Serien: Turing (T4, Quadro RTX), Ampere (RTX 30-Serie, A30, A40, A100), Ada Lovelace (RTX 40-Serie) oder Hopper (H100, H200).

Im Hinblick auf Benutzerfreundlichkeit und Zugänglichkeit unterstützt das Ultralytics Python-Paket die FlashAttention-Inferenz noch nicht, da deren Installation technisch recht komplex sein kann. Um mehr über die ersten Schritte mit YOLO12 und die Optimierung seiner Leistung zu erfahren, schau dir die offizielle Ultralytics-Dokumentation an.

Link to this sectionWichtige Erkenntnisse#

Mit dem Fortschritt im Bereich Computer Vision werden Modelle präziser und effizienter. YOLO12 verbessert Computer-Vision-Aufgaben wie Objekterkennung, Instanzsegmentierung und Bildklassifizierung durch aufmerksamkeitszentrierte Verarbeitung und FlashAttention, wodurch die Genauigkeit erhöht und die Speichernutzung optimiert wird.

Gleichzeitig ist Computer Vision zugänglicher denn je. YOLO12 ist über das Ultralytics Python-Paket einfach zu verwenden und eignet sich aufgrund des Fokus auf Genauigkeit gegenüber Geschwindigkeit hervorragend für die medizinische Bildgebung, industrielle Inspektionen und Robotik - Anwendungen, bei denen Präzision entscheidend ist.

Neugierig auf KI? Besuche unser GitHub-Repository und engagiere dich in unserer Community. Entdecke Innovationen in Bereichen wie KI in selbstfahrenden Autos und Computer Vision in der Landwirtschaft auf unseren Lösungsseiten. Schau dir unsere Lizenzierungsoptionen an und erwecke deine Vision-KI-Projekte zum Leben. 🚀

YOLO12 erklärt: Praxisanwendungen und Anwendungsfälle

Link to this sectionDer Weg zur Veröffentlichung von YOLO12#

Link to this sectionHauptfunktionen von YOLO12#

Link to this sectionVerständnis der Leistungsbenchmarks von YOLO12#

Link to this sectionVerwendung von YOLO12 über das Ultralytics Python-Paket#

Link to this sectionPraktische YOLO12-Anwendungen#

Link to this sectionErste Schritte mit YOLO12#

Link to this sectionWichtige Erkenntnisse#

Explore solutions

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

Lass uns gemeinsam die Zukunft der KI bauen!