Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Cookie-Einstellungen
Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Seien Sie dabei, wenn wir einen Blick zurück auf die Entwicklung der Objekterkennung werfen. Wir werden uns darauf konzentrieren, wie sich YOLO-Modelle (You Only Look Once) in den letzten Jahren weiterentwickelt haben.
Computer Vision ist ein Teilbereich der künstlichen Intelligenz (KI), der sich darauf konzentriert, Maschinen das Sehen und Verstehen von Bildern und Videos beizubringen, ähnlich wie Menschen die reale Welt wahrnehmen. Während das Erkennen von Objekten oder das Identifizieren von Aktionen für Menschen selbstverständlich ist, erfordern diese Aufgaben spezifische und spezialisierte Computer-Vision-Techniken, wenn es um Maschinen geht. Eine wichtige Aufgabe in der Computer Vision ist beispielsweise die Objekterkennung, bei der Objekte innerhalb von Bildern oder Videos identifiziert und lokalisiert werden.
Seit den 1960er Jahren arbeiten Forschende daran, die Möglichkeiten von Computern zur Objekterkennung zu verbessern. Frühe Methoden, wie das Template Matching, beinhalteten das Verschieben einer vordefinierten Vorlage über ein Bild, um Übereinstimmungen zu finden. Obwohl diese Ansätze innovativ waren, hatten sie mit Veränderungen der Objektgröße, -ausrichtung und -beleuchtung zu kämpfen. Heute haben wir fortschrittliche Modelle wie Ultralytics YOLO11, die selbst kleine und teilweise verdeckte Objekte, sogenannte verdeckte Objekte, mit beeindruckender Genauigkeit erkennen können.
Da sich die Computer Vision ständig weiterentwickelt, ist es wichtig, auf die Entwicklung dieser Technologien zurückzublicken. In diesem Artikel werden wir die Entwicklung der Objekterkennung untersuchen und die Transformation der YOLO (You Only Look Once) Modelle beleuchten. Fangen wir an!
Die Ursprünge der Computer Vision
Bevor wir uns mit der Objekterkennung befassen, wollen wir uns ansehen, wie Computer Vision ihren Anfang nahm. Die Ursprünge der Computer Vision reichen bis in die späten 1950er und frühen 1960er Jahre zurück, als Wissenschaftler begannen zu erforschen, wie das Gehirn visuelle Informationen verarbeitet. In Experimenten mit Katzen entdeckten die Forscher David Hubel und Torsten Wiesel, dass das Gehirn auf einfache Muster wie Kanten und Linien reagiert. Dies bildete die Grundlage für die Idee hinter der Merkmalsextraktion - dem Konzept, dass visuelle Systeme grundlegende Merkmale in Bildern, wie z. B. Kanten, erkennen, bevor sie zu komplexeren Mustern übergehen.
Abb. 1. Das Verständnis, wie das Gehirn einer Katze auf Lichtbalken reagiert, trug zur Entwicklung der Merkmalsextraktion in der Computer Vision bei.
Etwa zur gleichen Zeit tauchte eine neue Technologie auf, die physische Bilder in digitale Formate umwandeln konnte, was das Interesse daran weckte, wie Maschinen visuelle Informationen verarbeiten könnten. Im Jahr 1966 trieb das Summer Vision Project des Massachusetts Institute of Technology (MIT) die Dinge weiter voran. Obwohl das Projekt nicht vollständig erfolgreich war, zielte es darauf ab, ein System zu schaffen, das den Vordergrund vom Hintergrund in Bildern trennen konnte. Für viele in der Vision AI Community markiert dieses Projekt den offiziellen Beginn von Computer Vision als wissenschaftliches Gebiet.
Das Verständnis der Geschichte der Objekterkennung
Als die Computer Vision in den späten 1990er und frühen 2000er Jahren Fortschritte machte, verlagerten sich die Objekterkennungsmethoden von grundlegenden Techniken wie dem Template Matching zu fortschrittlicheren Ansätzen. Eine beliebte Methode war Haar Cascade, die für Aufgaben wie die Gesichtserkennung weit verbreitet war. Sie funktionierte, indem sie Bilder mit einem Schiebefenster scannte und in jedem Abschnitt des Bildes nach bestimmten Merkmalen wie Kanten oder Texturen suchte und diese Merkmale dann kombinierte, um Objekte wie Gesichter zu erkennen. Haar Cascade war viel schneller als frühere Methoden.
Abb. 2. Verwendung von Haar Cascade zur Gesichtserkennung.
Daneben wurden auch Methoden wie Histogram of Oriented Gradients (HOG) und Support Vector Machines (SVMs) eingeführt. HOG verwendete die Sliding-Window-Technik, um zu analysieren, wie sich Licht und Schatten in kleinen Abschnitten eines Bildes veränderten, was half, Objekte anhand ihrer Formen zu identifizieren. SVMs klassifizierten dann diese Merkmale, um die Identität des Objekts zu bestimmen. Diese Methoden verbesserten die Genauigkeit, hatten aber immer noch in realen Umgebungen zu kämpfen und waren langsamer als die heutigen Techniken.
Der Bedarf an Echtzeit-Objekterkennung
In den 2010er Jahren brachte der Aufstieg von Deep Learning und Convolutional Neural Networks (CNNs) eine große Veränderung in der Objekterkennung. CNNs ermöglichten es Computern, automatisch wichtige Merkmale aus großen Mengen von Daten zu lernen, was die Erkennung wesentlich genauer machte.
Diese Modelle waren jedoch langsam, da sie Bilder in mehreren Schritten verarbeiteten, was sie für Echtzeitanwendungen in Bereichen wie selbstfahrenden Autos oder Videoüberwachung unpraktisch machte.
Mit dem Fokus auf die Beschleunigung der Prozesse wurden effizientere Modelle entwickelt. Modelle wie Fast R-CNN und Faster R-CNN halfen, indem sie die Auswahl von Regionen von Interesse verfeinerten und die Anzahl der für die Erkennung erforderlichen Schritte reduzierten. Dies beschleunigte zwar die Objekterkennung, war aber für viele Anwendungen in der realen Welt, die sofortige Ergebnisse benötigten, immer noch nicht schnell genug. Die wachsende Nachfrage nach Echtzeit-Erkennung trieb die Entwicklung noch schnellerer und effizienterer Lösungen voran, die sowohl Geschwindigkeit als auch Genauigkeit in Einklang bringen konnten.
Abb. 3. Vergleich der Geschwindigkeiten von R-CNN, Fast R-CNN und Faster R-CNN.
YOLO (You Only Look Once) Modelle: Ein wichtiger Meilenstein
YOLO ist ein Objekterkennungsmodell, das Computer Vision neu definiert hat, indem es die Echtzeit-Erkennung von mehreren Objekten in Bildern und Videos ermöglicht, was es von früheren Erkennungsmethoden unterscheidet. Anstatt jedes erkannte Objekt einzeln zu analysieren, behandelt die YOLO-Architektur die Objekterkennung als eine einzige Aufgabe und sagt sowohl die Position als auch die Klasse von Objekten in einem Durchgang mithilfe von CNNs voraus.
Das Modell funktioniert, indem es ein Bild in ein Raster unterteilt, wobei jeder Teil für die Erkennung von Objekten in seinem jeweiligen Bereich verantwortlich ist. Es macht mehrere Vorhersagen für jeden Abschnitt und filtert die weniger zuverlässigen Ergebnisse heraus, wobei nur die genauen Ergebnisse beibehalten werden.
Abb. 4. Eine Übersicht über die Funktionsweise von YOLO.
Die Einführung von YOLO in Computer-Vision-Anwendungen machte die Objekterkennung viel schneller und effizienter als frühere Modelle. Aufgrund seiner Geschwindigkeit und Genauigkeit wurde YOLO schnell zu einer beliebten Wahl für Echtzeitlösungen in Branchen wie Fertigung, Gesundheitswesen und Robotik.
Ein weiterer wichtiger Punkt ist, dass Entwickler und Forscher YOLO, da es Open-Source war, kontinuierlich verbessern konnten, was zu noch fortschrittlicheren Versionen führte.
Der Weg von YOLO zu YOLO11
YOLO-Modelle haben sich im Laufe der Zeit stetig verbessert, wobei jede Version auf den Fortschritten der vorherigen aufbaut. Neben einer besseren Leistung haben diese Verbesserungen die Modelle für Menschen mit unterschiedlichem technischen Kenntnisstand einfacher zu bedienen gemacht.
Als beispielsweise Ultralytics YOLOv5 eingeführt wurde, wurde die Bereitstellung von Modellen mit PyTorch einfacher, wodurch ein breiteres Spektrum von Benutzern mit fortschrittlicher KI arbeiten konnte. Es vereinte Genauigkeit und Benutzerfreundlichkeit und gab mehr Menschen die Möglichkeit, Objekterkennung zu implementieren, ohne Coding-Experten sein zu müssen.
Abb. 5. Die Entwicklung der YOLO-Modelle.
Ultralytics YOLOv8 setzte diese Entwicklung fort, indem es die Unterstützung für Aufgaben wie die Instanzsegmentierung hinzufügte und die Modelle flexibler machte. Es wurde einfacher, YOLO sowohl für grundlegende als auch für komplexere Anwendungen zu verwenden, was es in einer Reihe von Szenarien nützlich macht.
Mit dem neuesten Modell, Ultralytics YOLO11, wurden weitere Optimierungen vorgenommen. Durch die Reduzierung der Anzahl der Parameter bei gleichzeitiger Verbesserung der Genauigkeit ist es jetzt effizienter für Echtzeitaufgaben. Egal, ob Sie ein erfahrener Entwickler oder ein Neuling im Bereich KI sind, YOLO11 bietet einen fortschrittlichen Ansatz zur Objekterkennung, der leicht zugänglich ist.
YOLO11 kennenlernen: Neue Funktionen und Verbesserungen
YOLO11, das auf dem jährlichen hybriden Event von Ultralytics, YOLO Vision 2024 (YV24), vorgestellt wurde, unterstützt die gleichen Computer Vision Aufgaben wie YOLOv8, wie Objekterkennung, Instanzsegmentierung, Bildklassifizierung und Pose Estimation (Körperhaltungsanalyse). Benutzer können also problemlos auf dieses neue Modell umsteigen, ohne ihre Arbeitsabläufe anpassen zu müssen. Darüber hinaus macht die verbesserte Architektur von YOLO11 Vorhersagen noch präziser. Tatsächlich erreicht YOLO11m eine höhere mittlere durchschnittliche Präzision (mAP) auf dem COCO-Datensatz mit 22 % weniger Parametern als YOLOv8m.
YOLO11 ist außerdem so konzipiert, dass es effizient auf einer Reihe von Plattformen läuft, von Smartphones und anderen Edge-Geräten bis hin zu leistungsstärkeren Cloud-Systemen. Diese Flexibilität gewährleistet eine reibungslose Leistung über verschiedene Hardware-Konfigurationen hinweg für Echtzeitanwendungen. Darüber hinaus ist YOLO11 schneller und effizienter, was die Rechenkosten senkt und die Inferenzzeiten beschleunigt. Egal, ob Sie das Ultralytics Python-Paket oder den No-Code Ultralytics HUB verwenden, YOLO11 lässt sich einfach in Ihre bestehenden Arbeitsabläufe integrieren.
Die Zukunft von YOLO-Modellen und Objekterkennung
Die Auswirkungen der fortschrittlichen Objekterkennung auf Echtzeitanwendungen und Edge-KI sind bereits in allen Branchen spürbar. Da Sektoren wie Öl und Gas, das Gesundheitswesen und der Einzelhandel zunehmend auf KI angewiesen sind, steigt die Nachfrage nach schneller und präziser Objekterkennung weiter an. YOLO11 zielt darauf ab, diese Nachfrage zu befriedigen, indem es eine hochleistungsfähige Erkennung auch auf Geräten mit begrenzter Rechenleistung ermöglicht.
Da Edge AI wächst, ist es wahrscheinlich, dass Objekterkennungsmodelle wie YOLO11 für die Echtzeit-Entscheidungsfindung in Umgebungen, in denen Geschwindigkeit und Genauigkeit entscheidend sind, noch wichtiger werden. Mit den laufenden Verbesserungen in Design und Anpassungsfähigkeit sieht die Zukunft der Objekterkennung vielversprechend aus, um noch mehr Innovationen in einer Vielzahl von Anwendungen zu bringen.
Wesentliche Erkenntnisse
Die Objekterkennung hat einen langen Weg zurückgelegt und sich von einfachen Methoden zu den fortschrittlichen Deep-Learning-Techniken entwickelt, die wir heute sehen. YOLO-Modelle standen im Mittelpunkt dieses Fortschritts und lieferten schnellere und genauere Echtzeit-Erkennung in verschiedenen Branchen. YOLO11 baut auf diesem Erbe auf, verbessert die Effizienz, senkt die Rechenkosten und erhöht die Genauigkeit, was es zu einer zuverlässigen Wahl für eine Vielzahl von Echtzeit-Anwendungen macht. Angesichts der laufenden Fortschritte in den Bereichen KI und Computer Vision sieht die Zukunft der Objekterkennung rosig aus, mit Raum für noch mehr Verbesserungen in Bezug auf Geschwindigkeit, Präzision und Anpassungsfähigkeit.
Neugierig auf KI? Bleiben Sie mit unserer Community in Verbindung, um weiterzulernen! Besuchen Sie unser GitHub-Repository, um zu erfahren, wie wir KI nutzen, um innovative Lösungen in Branchen wie der Fertigung und dem Gesundheitswesen zu entwickeln. 🚀