Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Vergleich von Ultralytics YOLO11 mit vorherigen YOLO-Modellen

Abirami Vina

4 Min. Lesezeit

2. April 2025

Vergleichen Sie Ultralytics YOLOv8, YOLOv9, YOLOv10 und Ultralytics YOLO11, um zu verstehen, wie sich diese Modelle von 2023 bis 2025 entwickelt und verbessert haben.

Von der Automatisierung alltäglicher Aufgaben bis hin zur Unterstützung fundierter Entscheidungen in Echtzeit verändert künstliche Intelligenz (KI) die Zukunft verschiedener Branchen. Ein besonders faszinierender Bereich der KI ist Computer Vision, auch bekannt als Vision AI. Sie konzentriert sich darauf, Maschinen in die Lage zu versetzen, visuelle Daten wie Menschen zu analysieren und zu interpretieren. 

Insbesondere treiben Computer Vision Modelle Innovationen voran, die sowohl die Sicherheit als auch die Effizienz verbessern. Zum Beispiel werden diese Modelle in selbstfahrenden Autos zur Erkennung von Fußgängern und in Überwachungskameras zur Rund-um-die-Uhr-Überwachung von Grundstücken eingesetzt. 

Einige der bekanntesten Computer-Vision-Modelle sind die YOLO-Modelle (You Only Look Once), die für ihre Echtzeit-Objekterkennung bekannt sind. Im Laufe der Zeit haben sich die YOLO-Modelle verbessert, wobei jede neue Version eine bessere Leistung und mehr Flexibilität bietet.

Neuere Versionen wie Ultralytics YOLO11 können eine Vielzahl von Aufgaben bewältigen, wie z. B. Instanzsegmentierung, Bildklassifizierung, Pose-Schätzung und Multi-Objekt-Tracking, mit besserer Genauigkeit, Geschwindigkeit und Präzision als je zuvor.

In diesem Artikel vergleichen wir Ultralytics YOLOv8, YOLOv9, YOLOv10 und Ultralytics YOLO11, um ein besseres Verständnis dafür zu bekommen, wie sich diese Modelle entwickelt haben. Wir werden ihre wichtigsten Funktionen, Benchmark-Ergebnisse und Leistungsunterschiede analysieren. Los geht's!

Ein Überblick über Ultralytics YOLOv8

YOLOv8, veröffentlicht von Ultralytics am 10. Januar 2023, war ein wichtiger Fortschritt im Vergleich zu früheren YOLO-Modellen. Es ist für eine genaue Echtzeit-Erkennung optimiert und kombiniert bewährte Ansätze mit innovativen Updates für bessere Ergebnisse.

YOLOv8 geht über die Objekterkennung hinaus und unterstützt auch die folgenden Computer-Vision-Aufgaben: Instanzsegmentierung, Pose-Schätzung, Objekterkennung mit orientierten Begrenzungsrahmen (OBB) und Bildklassifizierung. Ein weiteres wichtiges Merkmal von YOLOv8 ist, dass es in fünf verschiedenen Modellvarianten erhältlich ist – Nano, Small, Medium, Large und X – sodass Sie das richtige Gleichgewicht zwischen Geschwindigkeit und Genauigkeit basierend auf Ihren Anforderungen wählen können.

Aufgrund ihrer Vielseitigkeit und starken Leistung kann YOLOv8 in vielen realen Anwendungen eingesetzt werden, wie z. B. Sicherheitssystemen, intelligenten Städten, dem Gesundheitswesen und der industriellen Automatisierung.

__wf_reserved_inherit
Abb. 1. Parkraummanagement in Smart Cities mit YOLOv8.

Hauptmerkmale von YOLOv8

Hier ist ein genauerer Blick auf einige der wichtigsten Funktionen von YOLOv8:

  • Verbesserte Detektionsarchitektur: YOLOv8 verwendet ein verbessertes CSPDarknet-Backbone. Dieses Backbone ist für die Feature-Extraktion optimiert - den Prozess der Identifizierung und Erfassung wichtiger Muster oder Details aus Eingangsbildern, die dem Modell helfen, genaue Vorhersagen zu treffen.

  • Detection Head (Erkennungskopf): Er verwendet ein ankerfreies, entkoppeltes Design, d. h. er ist nicht auf voreingestellte Bounding-Box-Formen (Anker) angewiesen, sondern lernt stattdessen, Objektpositionen direkt vorherzusagen. Aufgrund des entkoppelten Aufbaus werden die Aufgaben, das Objekt zu klassifizieren und vorherzusagen, wo es sich befindet (Regression), getrennt behandelt, was zur Verbesserung der Genauigkeit beiträgt und das Training beschleunigt.

  • Gleicht Genauigkeit und Geschwindigkeit aus: Dieses Modell erzielt eine beeindruckende Genauigkeit bei gleichzeitig schnellen Inferenzzeiten, wodurch es sich sowohl für Cloud- als auch für Edge-Umgebungen eignet.

  • Benutzerfreundlich: YOLOv8 ist so konzipiert, dass der Einstieg einfach ist - Sie können mit der Vorhersage beginnen und in nur wenigen Minuten Ergebnisse mit dem Ultralytics Python-Paket erzielen.

YOLOv9 konzentriert sich auf die Recheneffizienz.

YOLOv9 wurde am 21. Februar 2024 von Chien-Yao Wang und Hong-Yuan Mark Liao vom Institute of Information Science, Academia Sinica, Taiwan, veröffentlicht. Es unterstützt Aufgaben wie Objekterkennung und Instanzsegmentierung

Dieses Modell baut auf Ultralytics YOLOv5 auf und führt zwei wesentliche Neuerungen ein: Programmable Gradient Information (PGI) und Generalized Efficient Layer Aggregation Network (GELAN). 

PGI hilft YOLOv9, wichtige Informationen während der Datenverarbeitung durch die Schichten zu erhalten, was zu genaueren Ergebnissen führt. Gleichzeitig verbessert GELAN die Nutzung der Schichten durch das Modell, wodurch die Leistung und die Recheneffizienz gesteigert werden. Dank dieser Verbesserungen kann YOLOv9 Echtzeitaufgaben auf Edge-Geräten und in mobilen Apps bewältigen, wo die Rechenressourcen oft begrenzt sind.

__wf_reserved_inherit
Abb. 2. Verständnis, wie GELAN die Genauigkeit von YOLOv9 verbessert.

Hauptmerkmale von YOLOv9

Hier ist ein Einblick in einige der wichtigsten Funktionen von YOLOv8:

  • Hohe Präzision bei Effizienz: YOLOv9 liefert eine hohe Erkennungsgenauigkeit, ohne viel Rechenleistung zu verbrauchen, was es zu einer guten Wahl macht, wenn die Ressourcen begrenzt sind.
  • Leichte Modelle: Die leichten Modellvarianten von YOLOv9 sind für Edge- und Mobile-Bereitstellungen optimiert. 
  • Einfache Bedienung: YOLOv9 wird vom Ultralytics Python-Paket unterstützt, sodass es einfach einzurichten und in verschiedenen Umgebungen auszuführen ist, egal ob Sie Code oder die Befehlszeile verwenden.

YOLOv10 ermöglicht NMS-freie Objekterkennung

YOLOv10 wurde am 23. Mai 2024 von Forschern der Tsinghua University vorgestellt und konzentriert sich auf die Echtzeit-Objekterkennung. Es behebt Einschränkungen in früheren YOLO-Versionen, indem es die Notwendigkeit der Non-Maximum Suppression (NMS), einem Nachbearbeitungsschritt zur Eliminierung doppelter Erkennungen, beseitigt und das gesamte Modelldesign verfeinert. Dies führt zu einer schnelleren und effizienteren Objekterkennung bei gleichzeitiger Erzielung modernster Genauigkeit.

Ein wesentlicher Bestandteil dessen, was dies ermöglicht, ist ein Trainingsansatz, der als konsistente Dual-Label-Zuweisung bekannt ist. Er kombiniert zwei Strategien: eine, die es mehreren Vorhersagen ermöglicht, vom selben Objekt zu lernen (One-to-Many), und eine andere, die sich auf die Auswahl der besten einzelnen Vorhersage konzentriert (One-to-One). Da beide Strategien denselben Matching-Regeln folgen, lernt das Modell, Duplikate selbstständig zu vermeiden, sodass NMS nicht erforderlich ist.

__wf_reserved_inherit
Abb. 3. YOLOv10 verwendet konsistente Dual-Label-Zuweisungen für NMS-freies Training.

Die Architektur von YOLOv10 verwendet auch ein verbessertes CSPNet-Backbone, um Features effektiver zu erlernen, und ein PAN (Path Aggregation Network)-Neck, das Informationen aus verschiedenen Schichten kombiniert, wodurch es sowohl kleine als auch große Objekte besser erkennen kann. Diese Verbesserungen ermöglichen den Einsatz von YOLOv10 für reale Anwendungen in der Fertigung, im Einzelhandel und beim autonomen Fahren.

Hauptmerkmale von YOLOv10

Hier sind einige der anderen herausragenden Merkmale von YOLOv10:

  • Faltungen mit großen Kerneln: Das Modell verwendet Faltungen mit großen Kerneln, um mehr Kontext aus größeren Bereichen des Bildes zu erfassen, was ihm hilft, die Gesamtszene besser zu verstehen.
  • Partielle Self-Attention-Module: Das Modell enthält partielle Self-Attention-Module, um sich auf die wichtigsten Teile des Bildes zu konzentrieren, ohne zu viel Rechenleistung zu verbrauchen, wodurch die Leistung effizient gesteigert wird.
  • Einzigartige Modellvariante: Neben den üblichen YOLOv10-Größen - Nano, Small, Medium, Large und X - gibt es auch eine spezielle Version namens YOLOv10b (Balanced). Es ist ein breiteres Modell, was bedeutet, dass es mehr Funktionen in jeder Schicht verarbeitet, was hilft, die Genauigkeit zu verbessern und gleichzeitig Geschwindigkeit und Größe auszugleichen.
  • Benutzerfreundlich: YOLOv10 ist mit dem Ultralytics Python-Paket kompatibel, wodurch es einfach zu bedienen ist.

Ultralytics YOLO11: Erhöhte Geschwindigkeit und Genauigkeit

In diesem Jahr, am 30. September, hat Ultralytics auf seiner jährlichen Hybridveranstaltung YOLO Vision 2024 (YV24) offiziell YOLO11 vorgestellt - eines der neuesten Modelle der YOLO-Serie.

Diese Version brachte bedeutende Verbesserungen gegenüber früheren Versionen. YOLO11 ist schneller, genauer und hocheffizient. Es unterstützt die gesamte Bandbreite der Computer-Vision-Aufgaben, mit denen YOLOv8-Benutzer vertraut sind, einschließlich Objekterkennung, Instanzsegmentierung und Bildklassifizierung. Es behält auch die Kompatibilität mit YOLOv8-Workflows bei, was es den Benutzern erleichtert, reibungslos auf die neue Version umzusteigen.

Darüber hinaus ist YOLO11 so konzipiert, dass es eine breite Palette von Rechenanforderungen erfüllt - von leichten Edge-Geräten bis hin zu leistungsstarken Cloud-Systemen. Das Modell ist sowohl als Open-Source- als auch als Enterprise-Version erhältlich, wodurch es an verschiedene Anwendungsfälle angepasst werden kann.

Es ist eine gute Option für Präzisionsaufgaben wie medizinische Bildgebung und Satellitenerkennung sowie für breitere Anwendungen in autonomen Fahrzeugen, der Landwirtschaft und dem Gesundheitswesen.

__wf_reserved_inherit
Abb. 4. Verwendung von Ultralytics YOLO11 zur Erkennung, Zählung und Verfolgung von Verkehr.

Hauptmerkmale von YOLO11

Hier sind einige der anderen einzigartigen Merkmale von YOLO11:

  • Schnelle und effiziente Erkennung: YOLO11 verfügt über einen Erkennungskopf, der für minimale Latenzzeiten ausgelegt ist und sich auf die Geschwindigkeit in den abschließenden Vorhersageschichten konzentriert, ohne die Leistung zu beeinträchtigen.
  • Verbesserte Feature-Extraktion: Eine optimierte Backbone- und Neck-Architektur verbessert die Feature-Extraktion, was zu präziseren Vorhersagen führt. 
  • Nahtlose Bereitstellung auf verschiedenen Plattformen: YOLO11 ist für den effizienten Betrieb auf Edge-Geräten, Cloud-Plattformen und NVIDIA-GPUs optimiert und gewährleistet so die Anpassungsfähigkeit an verschiedene Umgebungen.

Benchmarking von YOLO-Modellen auf dem COCO-Datensatz

Wenn man verschiedene Modelle untersucht, ist es nicht immer einfach, sie allein anhand ihrer Eigenschaften zu vergleichen. Hier kommt das Benchmarking ins Spiel. Indem wir alle Modelle auf demselben Datensatz ausführen, können wir ihre Leistung objektiv messen und vergleichen. Werfen wir einen Blick darauf, wie jedes Modell auf dem COCO-Datensatz abschneidet.

Beim Vergleich von YOLO-Modellen bringt jede neue Version bemerkenswerte Verbesserungen in Bezug auf Genauigkeit, Geschwindigkeit und Flexibilität. Insbesondere YOLO11m macht hier einen Sprung, da es 22 % weniger Parameter als YOLOv8m verwendet, was bedeutet, dass es leichter und schneller ausgeführt werden kann. Trotz seiner geringeren Größe erreicht es auch eine höhere mittlere durchschnittliche Präzision (mAP) auf dem COCO-Datensatz. Diese Metrik misst, wie gut das Modell Objekte erkennt und lokalisiert, sodass eine höhere mAP genauere Vorhersagen bedeutet. 

__wf_reserved_inherit
Abb. 5. Benchmarking von YOLO11 und anderen YOLO-Modellen auf dem COCO-Datensatz.

Testen und Vergleichen von YOLO-Modellen in einem Video

Lassen Sie uns untersuchen, wie diese Modelle in einer realen Situation funktionieren.

Um YOLOv8, YOLOv9, YOLOv10 und YOLO11 zu vergleichen, wurden alle vier mit einem Konfidenzwert von 0,3 (das Modell zeigt nur Erkennungen an, wenn es zu mindestens 30 % sicher ist, dass es ein Objekt korrekt identifiziert hat) und einer Bildgröße von 640 für eine faire Bewertung auf demselben Verkehrsvideo ausgeführt. Die Ergebnisse der Objekterkennung und -verfolgung hoben wichtige Unterschiede in Bezug auf Erkennungsgenauigkeit, Geschwindigkeit und Präzision hervor. 

Vom ersten Frame an erkannte YOLO11 große Fahrzeuge wie LKWs, die YOLOv10 verpasst hatte. YOLOv8 und YOLOv9 zeigten eine ordentliche Leistung, die jedoch je nach Lichtverhältnissen und Objektgröße variierte. Kleinere, entfernte Fahrzeuge blieben bei allen Modellen eine Herausforderung, obwohl YOLO11 auch bei diesen Erkennungen deutliche Verbesserungen zeigte.

__wf_reserved_inherit
Abb. 6. Vergleich von YOLOv8, YOLOv9, YOLOv10 und YOLO11.

In Bezug auf die Geschwindigkeit arbeiteten alle Modelle zwischen 10 und 20 Millisekunden pro Frame, was schnell genug ist, um Echtzeitaufgaben mit über 50 FPS zu bewältigen. Einerseits lieferten YOLOv8 und YOLOv9 während des gesamten Videos stabile und zuverlässige Erkennungen. Interessanterweise war YOLOv10, das für geringere Latenzzeiten entwickelt wurde, schneller, zeigte aber einige Inkonsistenzen bei der Erkennung bestimmter Objekttypen. 

YOLO11 hingegen zeichnete sich durch seine Präzision aus und bot ein starkes Gleichgewicht zwischen Geschwindigkeit und Genauigkeit. Obwohl keines der Modelle in jedem Frame perfekt abschnitt, zeigte der direkte Vergleich deutlich, dass YOLO11 die beste Gesamtleistung lieferte. 

Welches YOLO-Modell ist am besten für Computer-Vision-Aufgaben geeignet?

Die Auswahl eines Modells für ein Projekt hängt von dessen spezifischen Anforderungen ab. Beispielsweise können einige Anwendungen Geschwindigkeit priorisieren, während andere eine höhere Genauigkeit erfordern oder mit Einsatzbeschränkungen konfrontiert sind, die die Entscheidung beeinflussen. 

Ein weiterer wichtiger Faktor ist die Art der Computer-Vision-Aufgaben, die Sie angehen müssen. Wenn Sie eine größere Flexibilität bei verschiedenen Aufgaben suchen, sind YOLOv8 und YOLO11 gute Optionen.

Ob Sie sich für YOLOv8 oder YOLO11 entscheiden, hängt wirklich von Ihren Bedürfnissen ab. YOLOv8 ist eine gute Wahl, wenn Sie neu im Bereich Computer Vision sind und Wert auf eine größere Community, mehr Tutorials und umfangreiche Integrationen von Drittanbietern legen. 

Wenn Sie andererseits eine hochmoderne Performance mit besserer Genauigkeit und Geschwindigkeit suchen, ist YOLO11 die bessere Wahl, obwohl es aufgrund der neueren Version eine kleinere Community und weniger Integrationen bietet.

Wesentliche Erkenntnisse

Von Ultralytics YOLOv8 bis Ultralytics YOLO11 spiegelt die Entwicklung der YOLO-Modellreihe ein konsequentes Streben nach intelligenteren Computer-Vision-Modellen wider. Jede Version von YOLO bringt sinnvolle Verbesserungen in Bezug auf Geschwindigkeit, Genauigkeit und Präzision. 

Da die Fortschritte im Bereich Computer Vision stetig zunehmen, bieten diese Modelle zuverlässige Lösungen für reale Herausforderungen, von der Objekterkennung bis hin zu autonomen Systemen. Die fortlaufende Entwicklung von YOLO-Modellen zeigt, wie weit das Feld bereits gekommen ist und was wir in Zukunft noch erwarten können.

Um mehr über KI zu erfahren, besuchen Sie unser GitHub-Repository und interagieren Sie mit unserer Community. Entdecken Sie Fortschritte in verschiedenen Branchen, von Vision AI in der Fertigung bis hin zu Computer Vision im Gesundheitswesen. Sehen Sie sich unsere Lizenzoptionen an, um noch heute mit Ihren Vision-AI-Projekten zu beginnen.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert