Die Vorteile des Ultralytics YOLO11 als ankerloser Detektor

Abirami Vina

5 Minuten lesen

5. Dezember 2024

Verstehen Sie, wie Ultralytics YOLO11 die verankerungsfreie Objekterkennung unterstützt und welche Vorteile diese Modellarchitektur für verschiedene Anwendungen bringt.

Wenn wir einen Blick zurück auf die Geschichte der KI-Modelle werfen, so gibt es das Konzept der Objekterkennung - eine Kernaufgabe der Computer Vision, bei der es um die Identifizierung und Lokalisierung von Objekten in einem Bild oder Video geht - bereits seit den 1960er Jahren. Der Hauptgrund für seine Bedeutung bei den heutigen Spitzeninnovationen ist jedoch, dass sich die Objekterkennungstechniken und Modellarchitekturen seither weiterentwickelt und rasch verbessert haben. 

In einem früheren Artikel haben wir die Entwicklung der Objekterkennung und den Weg, der zu den YOLO-Modellen von Ultralytics geführt hat, erörtert. Heute konzentrieren wir uns auf einen speziellen Meilenstein auf diesem Weg: den Sprung von ankerbasierten Detektoren zu ankerfreien Detektoren. 

Ankerbasierte Detektoren stützen sich auf vordefinierte Boxen, sogenannte "Anker", um vorherzusagen, wo sich Objekte in einem Bild befinden. Im Gegensatz dazu übergehen ankerfreie Detektoren diese vordefinierten Boxen und sagen stattdessen die Objektpositionen direkt voraus.

Auch wenn dieser Wechsel wie eine einfache, logische Änderung erscheinen mag, hat er tatsächlich zu erheblichen Verbesserungen bei der Genauigkeit und Effizienz der Objekterkennung geführt. In diesem Artikel erfahren Sie, wie verankerungsfreie Detektoren die Computer Vision durch Fortschritte wie Ultralytics YOLO11 neu gestaltet haben.

Was sind ankerbasierte Detektoren?

Ankerbasierte Detektoren verwenden vordefinierte Boxen, so genannte Anker, um Objekte in einem Bild zu lokalisieren. Stellen Sie sich diese Anker als ein Raster von Kästen unterschiedlicher Größe und Form vor, die über das Bild gelegt werden. Das Modell passt diese Boxen dann an die erkannten Objekte an. Wenn das Modell beispielsweise ein Auto erkennt, ändert es die Ankerbox, um die Position und Größe des Autos genauer zu bestimmen.

Jeder Anker ist mit einem möglichen Objekt im Bild verknüpft, und während des Trainings lernt das Modell, wie es die Ankerboxen optimieren kann, um die Position, die Größe und das Seitenverhältnis des Objekts besser zu erfassen. Dadurch kann das Modell Objekte in verschiedenen Maßstäben und Ausrichtungen erkennen. Die Auswahl des richtigen Satzes von Ankerboxen kann jedoch zeitaufwändig sein, und der Prozess der Feinabstimmung kann fehleranfällig sein.

__wf_reserved_inherit
Abbildung 1. Was ist eine Ankerbox?

Ankerbasierte Detektoren wie YOLOv4 haben sich zwar in vielen Anwendungen bewährt, haben aber auch einige Nachteile. Zum Beispiel passen Ankerboxen nicht immer gut zu Objekten unterschiedlicher Form oder Größe, was es dem Modell erschwert, kleine oder unregelmäßig geformte Objekte zu erkennen. Die Auswahl und Feinabstimmung der Größe der Ankerboxen kann außerdem zeitaufwändig sein und erfordert viel manuellen Aufwand. Abgesehen davon haben verankerungsbasierte Modelle oft Probleme mit der Erkennung von verdeckten oder überlappenden Objekten, da die vordefinierten Boxen sich möglicherweise nicht gut an diese komplexeren Szenarien anpassen.

Der Übergang zur verankerungsfreien Objekterkennung

Ankerfreie Detektoren gewannen 2018 mit Modellen wie CornerNet und CenterNet an Aufmerksamkeit, die einen neuen Ansatz zur Objekterkennung verfolgten, indem sie die Notwendigkeit vordefinierter Ankerboxen eliminierten. Im Gegensatz zu herkömmlichen Modellen, die sich auf Ankerboxen unterschiedlicher Größe und Form stützen, um die Position von Objekten vorherzusagen, sagen ankerfreie Modelle die Positionen von Objekten direkt voraus. Sie konzentrieren sich auf Schlüsselpunkte oder Merkmale des Objekts, wie z. B. die Mitte, was den Erkennungsprozess vereinfacht und ihn schneller und genauer macht.

So funktionieren die ankerlosen Modelle im Allgemeinen:

  • Keypoint-Erkennung: Anstatt vordefinierte Boxen zu verwenden, identifizieren einige Modelle wichtige Punkte auf einem Objekt, wie die Mitte oder bestimmte Ecken. Anhand dieser Schlüsselpunkte können Modelle herausfinden, wo sich das Objekt befindet und wie groß es ist.
  • Zentrum Vorhersage: Einige Modelle konzentrieren sich auf die Vorhersage des Mittelpunkts eines Objekts. Sobald der Mittelpunkt lokalisiert ist, kann das Modell von dort aus die Größe und Position des gesamten Objekts vorhersagen.
  • Heatmap-Regression: Viele ankerfreie Modelle verwenden Heatmaps, bei denen jedes Pixel einen möglichen Standort eines Objekts darstellt. Stärkere Heatmap-Werte weisen auf eine höhere Wahrscheinlichkeit hin, dass ein Objekt an diesem Punkt vorhanden ist.
__wf_reserved_inherit
Abb. 2. Anker-basierte Detektion vs. Anker-freie Detektion.

Da verankerungsfreie Modelle nicht auf Ankerboxen angewiesen sind, sind sie einfacher aufgebaut. Das bedeutet, dass sie rechenintensiver sind. Da sie nicht mehrere Ankerboxen verarbeiten müssen, können sie Objekte schneller erkennen - ein wichtiger Vorteil bei Echtzeitanwendungen wie autonomem Fahren und Videoüberwachung. 

Modelle ohne Anker sind auch viel besser für kleine, unregelmäßige oder verdeckte Objekte geeignet. Da sie sich auf die Erkennung von Schlüsselpunkten konzentrieren, anstatt zu versuchen, Ankerboxen einzupassen, sind sie viel flexibler. Dadurch können sie Objekte in unübersichtlichen oder komplexen Umgebungen genau erkennen, in denen verankerungsbasierte Modelle versagen können.

Ultralytics YOLO11: Ein verankerungsfreier Detektor

Ursprünglich auf Schnelligkeit und Effizienz ausgelegt, haben sich die YOLO-Modelle allmählich von ankerbasierten Methoden zu einer ankerfreien Erkennung entwickelt, wodurch Modelle wie YOLO11 schneller, flexibler und besser für eine Vielzahl von Echtzeitanwendungen geeignet sind.

Hier ein kurzer Blick darauf, wie sich das ankerlose Design in den verschiedenen YOLO-Versionen entwickelt hat:

  • Ultralytik YOLOv5u: Einführung des verankerungsfreien Split-Ultralytics-Kopfes, der die Notwendigkeit vordefinierter Ankerboxen beseitigt. Stattdessen sagt das Modell direkt voraus, wo sich Objekte in einem Bild befinden, was den Prozess vereinfacht und die Flexibilität und Geschwindigkeit verbessert.
  • YOLOv6: Es wurde eine neue Methode namens Anchor-Aided Training (AAT) verwendet, bei der Anker nur während des Trainings verwendet wurden. Dadurch konnte das Modell während des Trainings von der Struktur der ankerbasierten Methoden profitieren, während es zur Laufzeit weiterhin eine ankerfreie Erkennung für eine bessere Geschwindigkeit und Anpassungsfähigkeit verwendete.
  • Ultralytik YOLOv8: Vollständige Umstellung auf verankerungsfreie Erkennung durch Verwendung des verankerungsfreien geteilten Ultralytics-Kopfes. Dadurch wurde das Modell schneller und genauer, insbesondere bei kleinen oder seltsam geformten Objekten, die nicht gut in die Ankerboxen passen.
  • Ultralytik YOLO11: Baut auf dem verankerungsfreien Ansatz von YOLOv8 auf und optimiert die Erkennung noch weiter, indem es die Ankerboxen vollständig eliminiert. Dies führt zu einer schnelleren und genaueren Erkennung für Echtzeitanwendungen wie die Überwachung von Tierverhalten und Einzelhandelsanalysen.
__wf_reserved_inherit
Abb. 3. Vergleich zwischen Ultralytics YOLOv8 und Ultralytics YOLO11.

Praktische Anwendungen von YOLO11

Ein gutes Beispiel für die Vorteile der ankerlosen Erkennung mit YOLO11 sind autonome Fahrzeuge. In selbstfahrenden Autos ist die schnelle und genaue Erkennung von Fußgängern, anderen Fahrzeugen und Hindernissen entscheidend für die Sicherheit. Der verankerungsfreie Ansatz von YOLO11 vereinfacht den Erkennungsprozess, indem er die Schlüsselpunkte von Objekten, wie die Mitte eines Fußgängers oder die Grenzen eines anderen Fahrzeugs, direkt vorhersagt, anstatt sich auf vordefinierte Ankerboxen zu verlassen. 

__wf_reserved_inherit
Abb. 4. Vorteile der verankerungsfreien Detektion in YOLO11 (Bild vom Autor).

YOLO11 muss nicht für jedes Objekt ein Raster von Ankern einstellen oder anpassen, was rechenintensiv und langsam sein kann. Stattdessen konzentriert es sich auf die wichtigsten Merkmale, wodurch es schneller und effizienter wird. Wenn z. B. ein Fußgänger in den Weg des Fahrzeugs tritt, kann YOLO11 seine Position schnell identifizieren, indem es Schlüsselpunkte festlegt, selbst wenn die Person teilweise verdeckt ist oder sich bewegt. Die Fähigkeit, sich an unterschiedliche Formen und Größen ohne Ankerboxen anzupassen, ermöglicht es YOLO11, Objekte zuverlässiger und mit höherer Geschwindigkeit zu erkennen, was für die Entscheidungsfindung in autonomen Fahrsystemen in Echtzeit unerlässlich ist.

Andere Anwendungen, bei denen die verankerungsfreien Fähigkeiten von YOLO11 besonders hervorstechen, sind:

  • Einzelhandel und Bestandsverwaltung: YOLO11 erleichtert die Überwachung der Produkte in den Regalen, auch wenn diese gestapelt oder teilweise blockiert sind. Dies hilft bei einer schnelleren und genaueren Bestandsverfolgung und reduziert Fehler.
  • Medizinische Bildgebung: YOLO11 kann auch im Gesundheitswesen eingesetzt werden, wo es Tumore oder andere Anomalien in medizinischen Scans erkennen kann. Seine Fähigkeit, mit unregelmäßig geformten Objekten zu arbeiten, trägt zur Verbesserung der Genauigkeit bei der Diagnose komplexer Erkrankungen bei.
  • Überwachung von Wildtieren: In der Wildtierforschung kann YOLO11 Tiere in dichten Wäldern oder unwegsamem Gelände aufspüren und Forschern helfen, das Verhalten zu überwachen oder gefährdete Arten zu schützen.
  • Sport-Analytik: YOLO11 kann verwendet werden, um Spieler, Ballbewegungen oder andere Elemente während Sportereignissen in Echtzeit zu verfolgen und so wertvolle Erkenntnisse für Teams, Trainer und Fernsehsender zu gewinnen.

Überlegungen, die bei der Arbeit mit ankerlosen Modellen anzustellen sind

Ankerfreie Modelle wie YOLO11 bieten zwar viele Vorteile, haben aber auch gewisse Einschränkungen. Eine der wichtigsten praktischen Überlegungen ist, dass selbst verankerungsfreie Modelle Probleme mit verdeckten oder stark überlappenden Objekten haben können. Dahinter steckt die Überlegung, dass das Computersehen das menschliche Sehen nachahmen soll, und so wie wir manchmal Schwierigkeiten haben, verdeckte Objekte zu erkennen, können KI-Modelle vor ähnlichen Herausforderungen stehen.

Ein weiterer interessanter Faktor hängt mit der Verarbeitung von Modellvorhersagen zusammen. Obwohl die Architektur verankerungsfreier Modelle einfacher ist als die verankerungsbasierter Modelle, ist in bestimmten Fällen eine zusätzliche Verfeinerung erforderlich. So können beispielsweise Nachbearbeitungstechniken wie die nichtmaximale Unterdrückung (NMS) erforderlich sein, um überlappende Vorhersagen zu bereinigen oder die Genauigkeit in überfüllten Szenen zu verbessern.

Verankerung in der Zukunft der KI mit YOLO11

Der Übergang von der verankerungsbasierten zur verankerungsfreien Erkennung war ein bedeutender Fortschritt bei der Objekterkennung. Mit verankerungsfreien Modellen wie YOLO11 wird der Prozess vereinfacht, was zu Verbesserungen bei Genauigkeit und Geschwindigkeit führt.

Mit YOLO11 haben wir gesehen, wie sich die verankerungsfreie Objekterkennung in Echtzeitanwendungen wie selbstfahrenden Autos, Videoüberwachung und medizinischer Bildgebung auszeichnet, wo eine schnelle und präzise Erkennung entscheidend ist. Dank dieses Ansatzes kann sich YOLO11 leichter an unterschiedliche Objektgrößen und komplexe Szenen anpassen und bietet eine bessere Leistung in unterschiedlichen Umgebungen.

Mit der weiteren Entwicklung der Computer Vision wird die Objekterkennung immer schneller, flexibler und effizienter werden.

Erkunden Sie unser GitHub-Repository und treten Sie unserer engagierten Community bei, um in Sachen KI auf dem Laufenden zu bleiben. Erfahren Sie, wie sich Vision AI auf Sektoren wie Fertigung und Landwirtschaft auswirkt.

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert