Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Ultralytics YOLO

Die Entwicklung der Objekterkennung und der YOLO-Modelle von Ultralytics

Begleite uns, wenn wir auf die Entwicklung der Objekterkennung zurückblicken. Wir konzentrieren uns darauf, wie YOLO (You Only Look Once)-Modelle in den letzten Jahren fortgeschritten sind.

ABAbirami Vina
4 min read
Die Entwicklung der Objekterkennung und von YOLO-Modellen

Computer Vision ist ein Teilbereich der künstlichen Intelligenz (KI), der sich darauf konzentriert, Maschinen das Sehen und Verstehen von Bildern und Videos beizubringen, ähnlich wie Menschen die reale Welt wahrnehmen. Während das Erkennen von Objekten oder das Identifizieren von Handlungen für Menschen selbstverständlich ist, erfordern diese Aufgaben für Maschinen spezifische und spezialisierte Computer-Vision-Techniken. Ein zentrales Beispiel für eine Aufgabe in der Computer Vision ist die Objekterkennung, bei der Objekte innerhalb von Bildern oder Videos identifiziert und lokalisiert werden.

Seit den 1960er Jahren arbeiten Forscher daran, die Art und Weise zu verbessern, wie Computer Objekte erkennen können. Frühe Methoden, wie das Template Matching, beinhalteten das Verschieben einer vordefinierten Vorlage über ein Bild, um Übereinstimmungen zu finden. Obwohl diese Ansätze innovativ waren, hatten sie Schwierigkeiten mit Veränderungen bei Objektgröße, Orientierung und Beleuchtung. Heute verfügen wir über fortschrittliche Modelle wie Ultralytics YOLO11, die selbst kleine und teilweise verdeckte Objekte, sogenannte okkludierte Objekte, mit beeindruckender Genauigkeit erkennen können.

Während sich Computer Vision weiterentwickelt, ist es wichtig, darauf zurückzublicken, wie sich diese Technologien entwickelt haben. In diesem Artikel untersuchen wir die Evolution der Objekterkennung und beleuchten die Transformation der YOLO (You Only Look Once) Modelle. Fangen wir an!

Link to this sectionDie Ursprünge der Computer Vision#

Bevor wir uns mit der Objekterkennung beschäftigen, werfen wir einen Blick darauf, wie die Computer Vision begann. Die Ursprünge der Computer Vision lassen sich bis in die späten 1950er und frühen 1960er Jahre zurückverfolgen, als Wissenschaftler begannen zu erforschen, wie das Gehirn visuelle Informationen verarbeitet. In Experimenten mit Katzen entdeckten die Forscher David Hubel und Torsten Wiesel, dass das Gehirn auf einfache Muster wie Kanten und Linien reagiert. Dies bildete die Grundlage für die Idee der Merkmalsextraktion – das Konzept, dass visuelle Systeme grundlegende Merkmale in Bildern, wie z. B. Kanten, erkennen und identifizieren, bevor sie zu komplexeren Mustern übergehen.

Katzenhirnexperiment, das die Merkmalsextraktion in der Computer Vision inspirierte

Abb. 1. Zu lernen, wie das Gehirn einer Katze auf Lichtbalken reagiert, half bei der Entwicklung der Merkmalsextraktion in der Computer Vision.

Zur gleichen Zeit entstand neue Technologie, die physische Bilder in digitale Formate umwandeln konnte, was das Interesse daran weckte, wie Maschinen visuelle Informationen verarbeiten könnten. 1966 trieb das Summer Vision Project des Massachusetts Institute of Technology (MIT) die Dinge weiter voran. Obwohl das Projekt nicht vollständig erfolgreich war, zielte es darauf ab, ein System zu schaffen, das den Vordergrund vom Hintergrund in Bildern trennen konnte. Für viele in der Vision-KI-Community markiert dieses Projekt den offiziellen Beginn der Computer Vision als wissenschaftliches Feld.

Link to this sectionDie Geschichte der Objekterkennung verstehen#

Als die Computer Vision in den späten 1990er und frühen 2000er Jahren Fortschritte machte, verlagerten sich die Methoden der Objekterkennung von grundlegenden Techniken wie dem Template Matching hin zu fortgeschritteneren Ansätzen. Eine beliebte Methode war Haar Cascade, die weit verbreitet für Aufgaben wie die Gesichtserkennung eingesetzt wurde. Sie funktionierte durch das Scannen von Bildern mit einem gleitenden Fenster, bei dem in jedem Bereich des Bildes nach spezifischen Merkmalen wie Kanten oder Texturen gesucht wurde, woraufhin diese Merkmale kombiniert wurden, um Objekte wie Gesichter zu erkennen. Haar Cascade war viel schneller als frühere Methoden.

Verwendung von Haar-Cascade zur Gesichtserkennung

Abb. 2. Verwendung von Haar Cascade zur Gesichtserkennung.

Neben diesen wurden Methoden wie Histogram of Oriented Gradients (HOG) und Support Vector Machines (SVMs) eingeführt. HOG verwendete die Technik des gleitenden Fensters, um zu analysieren, wie sich Licht und Schatten in kleinen Abschnitten eines Bildes veränderten, was dabei half, Objekte anhand ihrer Formen zu identifizieren. SVMs klassifizierten diese Merkmale dann, um die Identität des Objekts zu bestimmen. Diese Methoden verbesserten die Genauigkeit, hatten aber in realen Umgebungen weiterhin Schwierigkeiten und waren im Vergleich zu heutigen Techniken langsamer.

Link to this sectionDer Bedarf an Objekterkennung in Echtzeit#

In den 2010er Jahren brachten der Aufstieg von Deep Learning und Convolutional Neural Networks (CNNs) einen großen Wandel in der Objekterkennung. CNNs machten es Computern möglich, automatisch wichtige Merkmale aus großen Mengen von Daten zu lernen, was die Erkennung wesentlich genauer machte.

Frühe Modelle wie R-CNN (Region-based Convolutional Neural Networks) waren eine große Verbesserung in der Präzision und halfen dabei, Objekte genauer zu identifizieren als ältere Methoden.

Diese Modelle waren jedoch langsam, da sie Bilder in mehreren Schritten verarbeiteten, was sie für Echtzeitanwendungen in Bereichen wie selbstfahrenden Autos oder Videoüberwachung unpraktisch machte.

Mit dem Fokus auf Geschwindigkeitssteigerung wurden effizientere Modelle entwickelt. Modelle wie Fast R-CNN und Faster R-CNN halfen dabei, die Auswahl der interessierenden Regionen zu verfeinern und die Anzahl der für die Erkennung erforderlichen Schritte zu reduzieren. Obwohl dies die Objekterkennung schneller machte, war es für viele reale Anwendungen, die sofortige Ergebnisse benötigten, immer noch nicht schnell genug. Der wachsende Bedarf an Objekterkennung in Echtzeit trieb die Entwicklung noch schnellerer und effizienterer Lösungen voran, die sowohl Geschwindigkeit als auch Genauigkeit in Einklang bringen konnten.

Vergleich der Geschwindigkeiten von R-CNN, Fast R-CNN und Faster R-CNN

Abb. 3. Vergleich der Geschwindigkeiten von R-CNN, Fast R-CNN und Faster R-CNN.

Link to this sectionYOLO (You Only Look Once) Modelle: Ein wichtiger Meilenstein#

YOLO ist ein Objekterkennungsmodell, das Computer Vision neu definiert hat, indem es die Echtzeiterkennung mehrerer Objekte in Bildern und Videos ermöglichte, was es deutlich von früheren Erkennungsmethoden unterscheidet. Anstatt jedes erkannte Objekt einzeln zu analysieren, behandelt die YOLO-Architektur die Objekterkennung als eine einzige Aufgabe und sagt sowohl die Position als auch die Klasse von Objekten mittels CNNs in einem einzigen Durchgang voraus.

Das Modell arbeitet, indem es ein Bild in ein Raster unterteilt, wobei jeder Teil für die Erkennung von Objekten in seinem jeweiligen Bereich verantwortlich ist. Es trifft mehrere Vorhersagen für jeden Abschnitt und filtert die weniger zuverlässigen Ergebnisse heraus, sodass nur die genauen übrig bleiben.

Ein Überblick über die Funktionsweise von YOLO

Abb. 4. Ein Überblick darüber, wie YOLO funktioniert.

Die Einführung von YOLO in Computer-Vision-Anwendungen machte die Objekterkennung viel schneller und effizienter als frühere Modelle. Aufgrund seiner Geschwindigkeit und Genauigkeit wurde YOLO schnell zu einer beliebten Wahl für Echtzeitlösungen in Branchen wie Fertigung, Gesundheitswesen und Robotik.

Ein weiterer wichtiger Punkt ist, dass Entwickler und Forscher YOLO kontinuierlich verbessern konnten, da es Open-Source war, was zu noch fortschrittlicheren Versionen führte.

Link to this sectionDer Weg von YOLO zu YOLO11#

YOLO-Modelle haben sich im Laufe der Zeit stetig verbessert und auf den Fortschritten jeder Version aufgebaut. Neben einer besseren Leistung haben diese Verbesserungen die Modelle auch benutzerfreundlicher für Personen mit unterschiedlichem technischem Erfahrungsgrad gemacht.

Zum Beispiel wurde mit der Einführung von Ultralytics YOLOv5 die Bereitstellung von Modellen mit PyTorch einfacher, was einer breiteren Palette von Benutzern den Umgang mit fortschrittlicher KI ermöglichte. Es vereinte Genauigkeit und Benutzerfreundlichkeit und gab mehr Menschen die Möglichkeit, Objekterkennung zu implementieren, ohne Experten im Programmieren sein zu müssen.

Die Entwicklung der YOLO-Modelle

Abb. 5. Die Entwicklung der YOLO-Modelle.

Ultralytics YOLOv8 setzte diesen Fortschritt fort, indem es Unterstützung für Aufgaben wie Instanzsegmentierung hinzufügte und die Modelle flexibler machte. Es wurde einfacher, YOLO sowohl für grundlegende als auch für komplexere Anwendungen zu nutzen, was es für eine Reihe von Szenarien nützlich machte.

Mit dem neuesten Modell, Ultralytics YOLO11, wurden weitere Optimierungen vorgenommen. Durch die Reduzierung der Anzahl der Parameter bei gleichzeitiger Verbesserung der Genauigkeit ist es nun effizienter für Echtzeitaufgaben. Egal, ob du ein erfahrener Entwickler oder neu in der KI bist, YOLO11 bietet einen fortschrittlichen Ansatz zur Objekterkennung, der leicht zugänglich ist.

Link to this sectionYOLO11 kennenlernen: Neue Funktionen und Verbesserungen#

YOLO11, das auf dem jährlichen Hybridevent von Ultralytics, YOLO Vision 2024 (YV24), vorgestellt wurde, unterstützt dieselben Computer-Vision-Aufgaben wie YOLOv8, wie Objekterkennung, Instanzsegmentierung, Bildklassifizierung und Pose Estimation. So können Benutzer problemlos auf dieses neue Modell umsteigen, ohne ihre Workflows anpassen zu müssen. Zudem macht die verbesserte Architektur von YOLO11 Vorhersagen noch präziser. Tatsächlich erreicht YOLO11m eine höhere mittlere durchschnittliche Genauigkeit (mAP) auf dem COCO-Datensatz mit 22 % weniger Parametern als YOLOv8m.

YOLO11 ist außerdem darauf ausgelegt, effizient auf einer Reihe von Plattformen zu laufen, von Smartphones und anderen Edge-Geräten bis hin zu leistungsfähigeren Cloud-Systemen. Diese Flexibilität sorgt für eine reibungslose Leistung bei verschiedenen Hardware-Setups für Echtzeitanwendungen. Darüber hinaus ist YOLO11 schneller und effizienter, was Rechenkosten senkt und Inferenzzeiten beschleunigt. Egal, ob du das Ultralytics Python-Paket oder den No-Code Ultralytics HUB verwendest, es ist einfach, YOLO11 in deine bestehenden Workflows zu integrieren.

Link to this sectionDie Zukunft der YOLO-Modelle und der Objekterkennung#

Der Einfluss fortschrittlicher Objekterkennung auf Echtzeitanwendungen und Edge-KI ist in verschiedenen Branchen bereits spürbar. Da Sektoren wie Öl und Gas, Gesundheitswesen und Einzelhandel zunehmend auf KI setzen, steigt der Bedarf an schneller und präziser Objekterkennung weiter an. YOLO11 zielt darauf ab, diesen Bedarf zu decken, indem es eine leistungsstarke Erkennung selbst auf Geräten mit begrenzter Rechenleistung ermöglicht.

Mit dem Wachstum der Edge-KI werden Objekterkennungsmodelle wie YOLO11 wahrscheinlich noch wichtiger für Entscheidungsfindungen in Echtzeit in Umgebungen, in denen Geschwindigkeit und Genauigkeit entscheidend sind. Durch die kontinuierlichen Verbesserungen bei Design und Anpassungsfähigkeit scheint die Zukunft der Objekterkennung bereit für noch mehr Innovationen in einer Vielzahl von Anwendungen zu sein.

Link to this sectionWichtige Erkenntnisse#

Die Objekterkennung hat einen langen Weg zurückgelegt und sich von einfachen Methoden zu den fortschrittlichen Deep-Learning-Techniken entwickelt, die wir heute sehen. YOLO-Modelle waren das Herzstück dieses Fortschritts und lieferten eine schnellere und genauere Echtzeiterkennung in verschiedenen Branchen. YOLO11 baut auf diesem Erbe auf, verbessert die Effizienz, senkt Rechenkosten und erhöht die Genauigkeit, was es zu einer zuverlässigen Wahl für eine Vielzahl von Echtzeitanwendungen macht. Mit den laufenden Fortschritten in KI und Computer Vision sieht die Zukunft der Objekterkennung rosig aus, mit Potenzial für noch mehr Verbesserungen bei Geschwindigkeit, Präzision und Anpassungsfähigkeit.

Neugierig auf KI? Bleibe mit unserer Community in Verbindung, um weiter zu lernen! Besuche unser GitHub-Repository, um zu entdecken, wie wir KI nutzen, um innovative Lösungen in Branchen wie Fertigung und Gesundheitswesen zu entwickeln. 🚀

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens