Wenn Sie auf "Alle Cookies akzeptieren" klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Navigation auf der Website zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Mehr Infos
Cookie-Einstellungen
Wenn Sie auf "Alle Cookies akzeptieren" klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Navigation auf der Website zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Mehr Infos
Vergleichen Sie Ultralytics YOLOv8, YOLOv9, YOLOv10 und Ultralytics YOLO11, um zu verstehen, wie sich diese Modelle zwischen 2023 und 2025 entwickelt und verbessert haben.
Von der Automatisierung alltäglicher Aufgaben bis hin zur Unterstützung bei der Entscheidungsfindung in Echtzeit - künstliche Intelligenz (KI) wird die Zukunft verschiedener Branchen neu gestalten. Ein besonders faszinierender Bereich der KI ist die Computer Vision, auch bekannt als Vision AI. Dabei geht es darum, Maschinen in die Lage zu versetzen, visuelle Daten wie Menschen zu analysieren und zu interpretieren.
Insbesondere treiben Computer-Vision-Modelle Innovationen voran, die sowohl die Sicherheit als auch die Effizienz verbessern. Diese Modelle werden zum Beispiel in selbstfahrenden Autos zur Erkennung von Fußgängern und in Sicherheitskameras zur Überwachung von Gebäuden rund um die Uhr eingesetzt.
Einige der bekanntesten Computer-Vision-Modelle sind die YOLO-Modelle (You Only Look Once), die für ihre Fähigkeit zur Objekterkennung in Echtzeit bekannt sind. Im Laufe der Zeit haben sich die YOLO-Modelle verbessert, wobei jede neue Version eine bessere Leistung und mehr Flexibilität bietet.
Neuere Versionen wie Ultralytics YOLO11 können eine Vielzahl von Aufgaben wie Instanzsegmentierung, Bildklassifizierung, Posenschätzung und Verfolgung mehrerer Objekte mit höherer Genauigkeit, Geschwindigkeit und Präzision als je zuvor bewältigen.
In diesem Artikel vergleichen wir Ultralytics YOLOv8, YOLOv9, YOLOv10 und Ultralytics YOLO11, um eine bessere Vorstellung davon zu bekommen, wie sich diese Modelle entwickelt haben. Wir werden ihre wichtigsten Merkmale, Benchmark-Ergebnisse und Leistungsunterschiede analysieren. Los geht's!
Ein Überblick über Ultralytics YOLOv8
YOLOv8, das von Ultralytics am 10. Januar 2023 veröffentlicht wurde, war ein großer Schritt nach vorn im Vergleich zu früheren YOLO-Modellen. Es ist für eine genaue Erkennung in Echtzeit optimiert und kombiniert bewährte Ansätze mit innovativen Updates für bessere Ergebnisse.
Über die Objekterkennung hinaus unterstützt es auch die folgenden Computer-Vision-Aufgaben: Instanzsegmentierung, Posenschätzung, OBB-Objekterkennung (Oriented Bounding Boxes) und Bildklassifizierung. Ein weiteres wichtiges Merkmal von YOLOv8 ist, dass es in fünf verschiedenen Modellvarianten erhältlich ist - Nano, Small, Medium, Large und X - so dass Sie je nach Bedarf das richtige Gleichgewicht aus Geschwindigkeit und Genauigkeit wählen können.
Aufgrund seiner Vielseitigkeit und starken Leistung kann YOLOv8 in vielen realen Anwendungen eingesetzt werden, z. B. in Sicherheitssystemen, intelligenten Städten, im Gesundheitswesen und in der industriellen Automatisierung.
Abb. 1. Parkraummanagement in Smart Cities mit YOLOv8.
Hauptmerkmale von YOLOv8
Hier ein genauerer Blick auf einige weitere wichtige Funktionen von YOLOv8:
Verbesserte Erkennungsarchitektur: YOLOv8 verwendet ein verbessertes CSPDarknet-Backbone. Dieser Backbone ist für die Merkmalsextraktion optimiert - den Prozess der Identifizierung und Erfassung wichtiger Muster oder Details aus den eingegebenen Bildern, die dem Modell helfen, genaue Vorhersagen zu treffen.
Erkennungskopf: Er verwendet ein ankerfreies, entkoppeltes Design, d. h. er verlässt sich nicht auf voreingestellte Bounding-Box-Formen (Anker) und lernt stattdessen, die Objektpositionen direkt vorherzusagen. Durch die Entkopplung werden die Aufgaben der Klassifizierung des Objekts und der Vorhersage seines Standorts (Regression) getrennt behandelt, was die Genauigkeit erhöht und das Training beschleunigt.
Ausgewogene Genauigkeit und Geschwindigkeit: Dieses Modell erreicht eine beeindruckende Genauigkeit bei gleichzeitig kurzen Inferenzzeiten, wodurch es sich sowohl für Cloud- als auch für Edge-Umgebungen eignet.
Benutzerfreundlich: YOLOv8 ist so konzipiert, dass der Einstieg einfach ist - mit dem Ultralytics Python-Paket können Sie in wenigen Minuten mit der Vorhersage beginnen und Ergebnisse sehen.
YOLOv9 konzentriert sich auf die Effizienz der Berechnungen
YOLOv9 wurde am 21. Februar 2024 von Chien-Yao Wang und Hong-Yuan Mark Liao vom Institute of Information Science, Academia Sinica, Taiwan veröffentlicht. Es unterstützt Aufgaben wie Objekterkennung und Instanzsegmentierung.
Dieses Modell baut auf Ultralytics YOLOv5 auf und führt zwei wichtige Neuerungen ein: Programmierbare Gradienteninformation (PGI) und Generalized Efficient Layer Aggregation Network (GELAN).
PGI hilft YOLOv9 dabei, wichtige Informationen zu behalten, während es Daten durch seine Schichten verarbeitet, was zu genaueren Ergebnissen führt. Gleichzeitig verbessert GELAN die Art und Weise, wie das Modell seine Schichten nutzt, und steigert so die Leistung und Recheneffizienz. Dank dieser Upgrades kann YOLOv9 Echtzeitaufgaben auf Edge-Geräten und mobilen Anwendungen bewältigen, wo die Rechenressourcen oft begrenzt sind.
Abbildung 2. Verstehen, wie GELAN die Genauigkeit von YOLOv9 verbessert.
Hauptmerkmale von YOLOv9
Hier ist ein Blick auf einige der anderen Hauptfunktionen von YOLOv8:
Hohe Präzision mit Effizienz: YOLOv9 bietet eine hohe Erkennungsgenauigkeit, ohne viel Rechenleistung zu verbrauchen, und ist damit eine gute Wahl, wenn die Ressourcen begrenzt sind.
Leichte Modelle: Die leichtgewichtigen Modellvarianten von YOLOv9 sind für Edge- und mobile Implementierungen optimiert.
Einfach zu benutzen: YOLOv9 wird vom Ultralytics-Python-Paket unterstützt, so dass es einfach einzurichten und in verschiedenen Umgebungen auszuführen ist, unabhängig davon, ob Sie Code oder die Befehlszeile verwenden.
YOLOv10 ermöglicht NMS-freie Objekterkennung
YOLOv10 wurde am 23. Mai 2024 von Forschern der Tsinghua-Universität vorgestellt und konzentriert sich auf die Objekterkennung in Echtzeit. Es behebt die Einschränkungen früherer YOLO-Versionen, indem es die Notwendigkeit der Nicht-Maximum-Unterdrückung (NMS), eines Nachbearbeitungsschritts zur Eliminierung doppelter Erkennungen, beseitigt und das Modelldesign insgesamt verfeinert. Dies führt zu einer schnelleren und effizienteren Objekterkennung, während die Genauigkeit immer noch auf dem neuesten Stand der Technik ist.
Ein wesentlicher Teil dessen, was dies möglich macht, ist ein Trainingsansatz, der als konsistente Dual-Label-Zuweisungen bekannt ist. Er kombiniert zwei Strategien: eine, die es erlaubt, dass mehrere Vorhersagen von demselben Objekt lernen (one-to-many), und eine andere, die sich auf die Auswahl der besten Einzelvorhersage konzentriert (one-to-one). Da beide Strategien den gleichen Zuordnungsregeln folgen, lernt das Modell von selbst, Duplikate zu vermeiden, so dass NMS nicht erforderlich ist.
Abbildung 3. YOLOv10 verwendet konsistente Dual-Label-Zuweisungen für NMS-freies Training.
Die Architektur von YOLOv10 verwendet außerdem ein verbessertes CSPNet-Backbone, um Merkmale effektiver zu erlernen, und einen PAN-Hals (Path Aggregation Network), der Informationen aus verschiedenen Schichten kombiniert, wodurch kleine und große Objekte besser erkannt werden können. Diese Verbesserungen machen es möglich, YOLOv10 für reale Anwendungen in der Fertigung, im Einzelhandel und beim autonomen Fahren einzusetzen.
Hauptmerkmale von YOLOv10
Hier sind einige der anderen herausragenden Merkmale von YOLOv10:
Large-Kernel-Faltungen: Das Modell verwendet Large-Kernel-Faltungen, um mehr Kontext aus breiteren Bereichen des Bildes zu erfassen und so die gesamte Szene besser zu verstehen.
Teilweise Selbstbeobachtungsmodule: Das Modell enthält partielle Self-Attention-Module, um sich auf die wichtigsten Teile des Bildes zu konzentrieren, ohne zu viel Rechenleistung zu verbrauchen, was die Leistung effizient erhöht.
Einzigartige Modellvariante: Neben den üblichen YOLOv10-Größen - Nano, Small, Medium, Large und X - gibt es auch eine spezielle Version namens YOLOv10b (Balanced). Es ist ein breiteres Modell, was bedeutet, dass es mehr Merkmale auf jeder Ebene verarbeitet, was die Genauigkeit verbessert und gleichzeitig ein Gleichgewicht zwischen Geschwindigkeit und Größe schafft.
Benutzerfreundlich: YOLOv10 ist mit dem Ultralytics-Python-Paket kompatibel und daher leicht zu bedienen.
Ultralytics YOLO11: Verbesserte Geschwindigkeit und Genauigkeit
Dieses Jahr, am 30. September, hat Ultralytics offiziell YOLO11 - eines der neuesten Modelle der YOLO-Serie - auf seiner jährlichen Hybrid-Veranstaltung, der YOLO Vision 2024 (YV24), vorgestellt.
Mit dieser Version wurden wesentliche Verbesserungen gegenüber früheren Versionen eingeführt. YOLO11 ist schneller, genauer und hocheffizient. Es unterstützt die gesamte Bandbreite an Computer-Vision-Aufgaben, mit denen YOLOv8-Benutzer vertraut sind, einschließlich Objekterkennung, Instanzsegmentierung und Bildklassifizierung. Die Kompatibilität mit YOLOv8-Workflows wird beibehalten, so dass die Benutzer problemlos auf die neue Version umsteigen können.
Darüber hinaus ist YOLO11 so konzipiert, dass es ein breites Spektrum an Computing-Anforderungen erfüllt - von leichtgewichtigen Edge-Geräten bis hin zu leistungsstarken Cloud-Systemen. Das Modell ist sowohl als Open-Source- als auch als Unternehmensversion verfügbar und lässt sich somit an unterschiedliche Anwendungsfälle anpassen.
Sie eignet sich hervorragend für Präzisionsaufgaben wie medizinische Bildgebung und Satellitenortung sowie für breitere Anwendungen in autonomen Fahrzeugen, in der Landwirtschaft und im Gesundheitswesen.
Abbildung 4. Verwendung von Ultralytics YOLO11 zur Erkennung, Zählung und Verfolgung des Verkehrs.
Hauptmerkmale von YOLO11
Hier sind einige der anderen einzigartigen Merkmale von YOLO11:
Schnelle und effiziente Erkennung: YOLO11 verfügt über einen Erkennungskopf, der auf minimale Latenzzeiten ausgelegt ist und sich auf die Geschwindigkeit in den letzten Vorhersageebenen konzentriert, ohne die Leistung zu beeinträchtigen.
Verbesserte Merkmalsextraktion: Eine optimierte Backbone- und Neck-Architektur verbessert die Merkmalsextraktion und führt zu präziseren Vorhersagen.
Nahtlose plattformübergreifende Bereitstellung: YOLO11 ist für die effiziente Ausführung auf Edge-Geräten, Cloud-Plattformen und NVIDIA-GPUs optimiert und gewährleistet so die Anpassungsfähigkeit in unterschiedlichen Umgebungen.
Benchmarking von YOLO-Modellen anhand des COCO-Datensatzes
Bei der Erkundung verschiedener Modelle ist es nicht immer einfach, sie nur anhand ihrer Merkmale zu vergleichen. An dieser Stelle kommt das Benchmarking ins Spiel. Indem wir alle Modelle auf demselben Datensatz ausführen, können wir ihre Leistung objektiv messen und vergleichen. Werfen wir einen Blick darauf, wie jedes Modell auf dem COCO-Datensatz abschneidet.
Beim Vergleich der YOLO-Modelle zeigt sich, dass jede neue Version bemerkenswerte Verbesserungen in Bezug auf Genauigkeit, Geschwindigkeit und Flexibilität mit sich bringt. Insbesondere YOLO11m macht hier einen Sprung, da es 22 % weniger Parameter als YOLOv8m verwendet, was bedeutet, dass es leichter und schneller auszuführen ist. Außerdem erreicht es trotz seiner geringeren Größe eine höhere durchschnittliche Genauigkeit (mAP) auf dem COCO-Datensatz. Mit dieser Metrik wird gemessen, wie gut das Modell Objekte erkennt und lokalisiert, so dass eine höhere mAP genauere Vorhersagen bedeutet.
Abb. 5. Benchmarking von YOLO11 und anderen YOLO-Modellen mit dem COCO-Datensatz.
Test und Vergleich von YOLO-Modellen in einem Video
Wir wollen nun untersuchen, wie diese Modelle in einer realen Situation funktionieren.
Um YOLOv8, YOLOv9, YOLOv10 und YOLO11 zu vergleichen , wurden alle vier auf demselben Verkehrsvideo mit einem Konfidenzwert von 0,3 (das Modell zeigt nur Erkennungen an, wenn es zu mindestens 30 % sicher ist, dass es ein Objekt korrekt identifiziert hat) und einer Bildgröße von 640 für eine faire Bewertung ausgeführt. Die Ergebnisse der Objekterkennung und -verfolgung zeigten wesentliche Unterschiede in der Erkennungsgenauigkeit, Geschwindigkeit und Präzision.
YOLO11 erkannte vom ersten Bild an große Fahrzeuge wie Lastwagen, die YOLOv10 übersehen hatte. YOLOv8 und YOLOv9 zeigten eine ordentliche Leistung, die jedoch je nach Lichtverhältnissen und Objektgröße variierte. Kleinere, weit entfernte Fahrzeuge blieben bei allen Modellen eine Herausforderung, obwohl YOLO11 auch bei diesen Erkennungen deutliche Verbesserungen zeigte.
Abb. 6. Vergleich von YOLOv8, YOLOv9, YOLOv10 und YOLO11.
Was die Geschwindigkeit betrifft, so arbeiteten alle Modelle zwischen 10 und 20 Millisekunden pro Bild, schnell genug, um Echtzeitaufgaben mit über 50 FPS zu bewältigen. Einerseits lieferten YOLOv8 und YOLOv9 über das gesamte Video hinweg gleichmäßige und zuverlässige Erkennungen. Interessanterweise war YOLOv10, das für eine geringere Latenzzeit entwickelt wurde, schneller, zeigte aber einige Unstimmigkeiten bei der Erkennung bestimmter Objekttypen.
YOLO11 hingegen zeichnete sich durch seine Präzision aus und bot ein ausgewogenes Verhältnis zwischen Geschwindigkeit und Genauigkeit. Obwohl keines der Modelle bei jedem Bild perfekt abschnitt, zeigte der Vergleich zwischen den beiden Modellen deutlich, dass YOLO11 die beste Gesamtleistung erbrachte.
Welches YOLO-Modell eignet sich am besten für Computer-Vision-Aufgaben?
Die Auswahl eines Modells für ein Projekt hängt von dessen spezifischen Anforderungen ab. Bei einigen Anwendungen kann beispielsweise die Geschwindigkeit im Vordergrund stehen, während bei anderen eine höhere Genauigkeit erforderlich ist oder Einschränkungen bei der Bereitstellung bestehen, die die Entscheidung beeinflussen.
Ein weiterer wichtiger Faktor ist die Art der Computer-Vision-Aufgaben, die Sie lösen müssen. Wenn Sie eine breitere Flexibilität für verschiedene Aufgaben suchen, sind YOLOv8 und YOLO11 eine gute Wahl.
Ob Sie sich für YOLOv8 oder YOLO11 entscheiden, hängt wirklich von Ihren Bedürfnissen ab. YOLOv8 ist eine solide Option, wenn Sie neu in der Computer Vision sind und eine größere Community, mehr Tutorials und umfangreiche Integrationen von Drittanbietern schätzen.
Wenn Sie hingegen auf der Suche nach modernster Leistung mit besserer Genauigkeit und Geschwindigkeit sind, ist YOLO11 die bessere Wahl, auch wenn es aufgrund der neueren Version eine kleinere Community und weniger Integrationen hat.
Die wichtigsten Erkenntnisse
Von Ultralytics YOLOv8 bis Ultralytics YOLO11 spiegelt die Entwicklung der YOLO-Modellreihe einen konsequenten Vorstoß in Richtung intelligenterer Computer-Vision-Modelle wider. Jede Version von YOLO bringt bedeutende Verbesserungen in Bezug auf Geschwindigkeit, Genauigkeit und Präzision.
Da die Computer Vision immer weiter fortschreitet, bieten diese Modelle zuverlässige Lösungen für reale Herausforderungen, von der Objekterkennung bis zu autonomen Systemen. Die fortlaufende Entwicklung von YOLO-Modellen zeigt, wie weit der Bereich gekommen ist und wie viel mehr wir in Zukunft erwarten können.