Die Entwicklung der Objekterkennung und die YOLO-Modelle von Ultralytics

Abirami Vina

4 Minuten lesen

18. Oktober 2024

Werfen Sie mit uns einen Blick zurück auf die Entwicklung der Objekterkennung. Wir werden uns darauf konzentrieren, wie sich YOLO-Modelle (You Only Look Once) in den letzten Jahren weiterentwickelt haben.

Computer Vision ist ein Teilbereich der künstlichen Intelligenz (AI), der sich darauf konzentriert, Maschinen beizubringen, Bilder und Videos zu sehen und zu verstehen, ähnlich wie Menschen die reale Welt wahrnehmen. Während das Erkennen von Objekten oder das Identifizieren von Handlungen für den Menschen selbstverständlich ist, erfordern diese Aufgaben bei Maschinen spezifische und spezialisierte Computer-Vision-Techniken. Eine wichtige Aufgabe im Bereich der Computer Vision ist beispielsweise die Objekterkennung, bei der es darum geht, Objekte in Bildern oder Videos zu identifizieren und zu lokalisieren. 

Seit den 1960er Jahren arbeiten Forscher daran, die Erkennung von Objekten durch Computer zu verbessern. Bei frühen Methoden wie dem Vorlagenabgleich wurde eine vordefinierte Vorlage über ein Bild gezogen, um Übereinstimmungen zu finden. Diese Ansätze waren zwar innovativ, hatten aber mit Änderungen der Objektgröße, -ausrichtung und -beleuchtung zu kämpfen. Heute verfügen wir über fortschrittliche Modelle wie Ultralytics YOLO11, die selbst kleine und teilweise verdeckte Objekte, so genannte verdeckte Objekte, mit beeindruckender Genauigkeit erkennen können.

Da sich die Computer Vision ständig weiterentwickelt, ist es wichtig, einen Rückblick auf die Entwicklung dieser Technologien zu werfen. In diesem Artikel werden wir die Entwicklung der Objekterkennung untersuchen und die Transformation der YOLO-Modelle (You Only Look Once) beleuchten. Fangen wir an!

Die Ursprünge der Computer Vision

Bevor wir uns mit der Objekterkennung befassen, sollten wir einen Blick auf die Anfänge der Computer Vision werfen. Die Ursprünge des Computerbildes gehen auf die späten 1950er und frühen 1960er Jahre zurück, als Wissenschaftler zu erforschen begannen, wie das Gehirn visuelle Informationen verarbeitet. In Experimenten mit Katzen entdeckten die Forscher David Hubel und Torsten Wiesel, dass das Gehirn auf einfache Muster wie Kanten und Linien reagiert. Dies bildete die Grundlage für die Idee der Merkmalsextraktion - das Konzept, dass visuelle Systeme grundlegende Merkmale in Bildern, wie z. B. Kanten, aufspüren und erkennen, bevor sie zu komplexeren Mustern übergehen.

__wf_reserved_inherit
Abb. 1. Zu lernen, wie das Gehirn einer Katze auf Lichtbalken reagiert, half bei der Entwicklung der Merkmalsextraktion in der Computer Vision.

Etwa zur gleichen Zeit kamen neue Technologien auf, mit denen physische Bilder in digitale Formate umgewandelt werden konnten, was das Interesse daran weckte, wie Maschinen visuelle Informationen verarbeiten könnten. Im Jahr 1966 ging das Summer Vision Project des Massachusetts Institute of Technology (MIT) noch einen Schritt weiter. Das Projekt war zwar nicht vollständig erfolgreich, aber es zielte darauf ab, ein System zu entwickeln, das den Vordergrund von dem Hintergrund in Bildern trennen konnte. Für viele in der Vision AI-Gemeinschaft markiert dieses Projekt den offiziellen Beginn der Computer Vision als Wissenschaftsgebiet.

Die Geschichte der Objekterkennung verstehen

Mit den Fortschritten der Computer Vision in den späten 1990er und frühen 2000er Jahren verlagerten sich die Methoden der Objekterkennung von grundlegenden Techniken wie dem Template Matching zu fortschrittlicheren Ansätzen. Eine beliebte Methode war die Haar-Kaskade, die für Aufgaben wie die Gesichtserkennung weit verbreitet wurde. Bei dieser Methode werden Bilder mit einem gleitenden Fenster gescannt, in jedem Bildabschnitt auf bestimmte Merkmale wie Kanten oder Texturen geprüft und diese Merkmale dann kombiniert, um Objekte wie Gesichter zu erkennen. Haar Cascade war viel schneller als frühere Methoden.

__wf_reserved_inherit
Abb. 2. Verwendung der Haar-Kaskade für die Gesichtserkennung.

Daneben wurden auch Methoden wie Histogram of Oriented Gradients (HOG) und Support Vector Machines (SVMs) eingeführt. HOG nutzte die Technik des gleitenden Fensters, um zu analysieren, wie sich Licht und Schatten in kleinen Abschnitten eines Bildes verändern, und half dabei, Objekte anhand ihrer Form zu identifizieren. SVMs klassifizierten dann diese Merkmale, um die Identität des Objekts zu bestimmen. Diese Methoden verbesserten die Genauigkeit, hatten aber in realen Umgebungen immer noch Probleme und waren im Vergleich zu den heutigen Techniken langsamer.

Die Notwendigkeit der Objekterkennung in Echtzeit

In den 2010er Jahren brachte das Aufkommen von Deep Learning und Convolutional Neural Networks (CNNs) einen großen Wandel in der Objekterkennung. CNNs ermöglichten es Computern, automatisch wichtige Merkmale aus großen Datenmengen zu lernen, wodurch die Erkennung viel genauer wurde. 

Frühe Modelle wie R-CNN (Region-based Convolutional Neural Networks) stellten eine große Verbesserung der Präzision dar und halfen, Objekte genauer zu identifizieren als ältere Methoden. 

Diese Modelle waren jedoch langsam, da sie Bilder in mehreren Schritten verarbeiteten, was sie für Echtzeitanwendungen in Bereichen wie selbstfahrende Autos oder Videoüberwachung unpraktisch machte.

Mit dem Ziel, die Dinge zu beschleunigen, wurden effizientere Modelle entwickelt. Modelle wie Fast R-CNN und Faster R-CNN halfen, indem sie die Auswahl der interessierenden Regionen verfeinerten und die Anzahl der für die Erkennung erforderlichen Schritte reduzierten. Obwohl die Objekterkennung dadurch schneller wurde, war sie für viele reale Anwendungen, die sofortige Ergebnisse benötigten, immer noch nicht schnell genug. Die wachsende Nachfrage nach Echtzeit-Erkennung trieb die Entwicklung noch schnellerer und effizienterer Lösungen voran, die sowohl Geschwindigkeit als auch Genauigkeit in Einklang bringen konnten.

__wf_reserved_inherit
Abb. 3. Vergleich der Geschwindigkeiten von R-CNN, Fast R-CNN und Faster R-CNN.

YOLO-Modelle (You Only Look Once): Ein wichtiger Meilenstein

YOLO ist ein Objekterkennungsmodell, das die Computervision neu definiert, indem es die Erkennung mehrerer Objekte in Bildern und Videos in Echtzeit ermöglicht, was es von früheren Erkennungsmethoden unterscheidet. Anstatt jedes erkannte Objekt einzeln zu analysieren, behandelt die Architektur von YOLO die Objekterkennung als eine einzige Aufgabe und sagt sowohl den Ort als auch die Klasse der Objekte in einem Durchgang mithilfe von CNNs voraus. 

Das Modell unterteilt ein Bild in ein Raster, wobei jeder Teil für die Erkennung von Objekten in seinem jeweiligen Bereich zuständig ist. Es macht mehrere Vorhersagen für jeden Abschnitt und filtert die weniger zuverlässigen Ergebnisse heraus, so dass nur die richtigen übrig bleiben. 

__wf_reserved_inherit
Abbildung 4. Ein Überblick über die Funktionsweise von YOLO.

Mit der Einführung von YOLO in Computer-Vision-Anwendungen wurde die Objekterkennung viel schneller und effizienter als bei früheren Modellen. Aufgrund seiner Geschwindigkeit und Genauigkeit wurde YOLO schnell zu einer beliebten Wahl für Echtzeitlösungen in Branchen wie Fertigung, Gesundheitswesen und Robotik.

Ein weiterer wichtiger Punkt ist, dass YOLO als Open-Source-Programm von Entwicklern und Forschern kontinuierlich verbessert werden konnte, was zu noch fortschrittlicheren Versionen führte.

Der Weg von YOLO zu YOLO11

Die YOLO-Modelle wurden im Laufe der Zeit immer weiter verbessert, wobei jede Version auf den Fortschritten der anderen aufbaut. Neben der besseren Leistung haben diese Verbesserungen dazu geführt, dass die Modelle für Personen mit unterschiedlicher technischer Erfahrung einfacher zu bedienen sind.

Als beispielsweise Ultralytics YOLOv5 eingeführt wurde, wurde die Bereitstellung von Modellen mit PyTorch einfacher, so dass ein breiterer Benutzerkreis mit fortschrittlicher KI arbeiten konnte. Es brachte Genauigkeit und Benutzerfreundlichkeit zusammen und gab mehr Menschen die Möglichkeit, Objekterkennung zu implementieren, ohne dass sie Kodierungsexperten sein mussten.

__wf_reserved_inherit
Abb. 5. Die Entwicklung der YOLO-Modelle.

Ultralytics YOLOv8 setzte diesen Fortschritt fort, indem es Unterstützung für Aufgaben wie die Segmentierung von Instanzen hinzufügte und die Modelle flexibler machte. Es wurde einfacher, YOLO sowohl für einfache als auch für komplexere Anwendungen zu verwenden, was es für eine Reihe von Szenarien nützlich macht.

Mit dem neuesten Modell, Ultralytics YOLO11, wurden weitere Optimierungen vorgenommen. Durch die Verringerung der Anzahl der Parameter bei gleichzeitiger Verbesserung der Genauigkeit ist es jetzt effizienter für Echtzeitaufgaben. Egal, ob Sie ein erfahrener Entwickler oder ein Neuling im Bereich der KI sind, YOLO11 bietet einen fortschrittlichen Ansatz zur Objekterkennung, der leicht zugänglich ist.

YOLO11 kennenlernen: Neue Funktionen und Verbesserungen

YOLO11, das auf der jährlichen Hybrid-Veranstaltung von Ultralytics, YOLO Vision 2024 (YV24), vorgestellt wurde, unterstützt dieselben Computer-Vision-Aufgaben wie YOLOv8, z. B. Objekterkennung, Instanzsegmentierung, Bildklassifizierung und Posenschätzung. Anwender können also problemlos zu diesem neuen Modell wechseln, ohne ihre Arbeitsabläufe anpassen zu müssen. Darüber hinaus macht die verbesserte Architektur von YOLO11 die Vorhersagen noch präziser. Tatsächlich erreicht YOLO11m eine höhere durchschnittliche Genauigkeit (mAP) auf dem COCO-Datensatz mit 22 % weniger Parametern als YOLOv8m.

YOLO11 ist außerdem so konzipiert, dass es auf einer Reihe von Plattformen effizient läuft, von Smartphones und anderen Edge-Geräten bis hin zu leistungsfähigeren Cloud-Systemen. Diese Flexibilität gewährleistet eine reibungslose Leistung über verschiedene Hardwarekonfigurationen für Echtzeitanwendungen. Darüber hinaus ist YOLO11 schneller und effizienter, wodurch die Rechenkosten gesenkt und die Inferenzzeiten verkürzt werden. Ganz gleich, ob Sie das Ultralytics Python-Paket oder den codefreien Ultralytics HUB verwenden, YOLO11 lässt sich problemlos in Ihre bestehenden Arbeitsabläufe integrieren.

Die Zukunft der YOLO-Modelle und der Objekterkennung

Die Auswirkungen der fortschrittlichen Objekterkennung auf Echtzeitanwendungen und KI sind bereits branchenübergreifend zu spüren. Da Branchen wie Öl und Gas, das Gesundheitswesen und der Einzelhandel zunehmend auf KI setzen, steigt die Nachfrage nach schneller und präziser Objekterkennung weiter an. YOLO11 zielt darauf ab, diese Nachfrage zu befriedigen, indem es eine leistungsstarke Erkennung selbst auf Geräten mit begrenzter Rechenleistung ermöglicht. 

Mit der zunehmenden Verbreitung von KI ist es wahrscheinlich, dass Objekterkennungsmodelle wie YOLO11 für Echtzeitentscheidungen in Umgebungen, in denen Geschwindigkeit und Genauigkeit entscheidend sind, noch wichtiger werden. Mit fortlaufenden Verbesserungen im Design und in der Anpassungsfähigkeit wird die Zukunft der Objekterkennung voraussichtlich noch mehr Innovationen für eine Vielzahl von Anwendungen bringen.

Die wichtigsten Erkenntnisse

Die Objekterkennung hat einen langen Weg zurückgelegt und sich von einfachen Methoden zu den fortschrittlichen Deep-Learning-Techniken entwickelt, die wir heute kennen. YOLO-Modelle waren das Herzstück dieses Fortschritts und ermöglichten eine schnellere und genauere Echtzeit-Erkennung in verschiedenen Branchen. YOLO11 baut auf diesem Erbe auf, verbessert die Effizienz, senkt die Rechenkosten und erhöht die Genauigkeit, was es zu einer zuverlässigen Wahl für eine Vielzahl von Echtzeitanwendungen macht. Mit den kontinuierlichen Fortschritten in den Bereichen KI und Computer Vision sieht die Zukunft der Objekterkennung rosig aus und bietet Raum für noch mehr Verbesserungen bei Geschwindigkeit, Präzision und Anpassungsfähigkeit.

Neugierig auf KI? Bleiben Sie mit unserer Community in Verbindung, um weiter zu lernen! In unserem GitHub-Repository erfahren Sie, wie wir KI einsetzen, um innovative Lösungen in Branchen wie der Fertigung und dem Gesundheitswesen zu entwickeln. 🚀

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert