Vergleich von Ultralytics YOLO11 mit früheren YOLO-Modellen
Vergleiche Ultralytics YOLOv8, YOLOv9, YOLOv10 und Ultralytics YOLO11, um zu verstehen, wie sich diese Modelle von 2023 bis 2025 weiterentwickelt und verbessert haben.

Von der Automatisierung alltäglicher Aufgaben bis hin zur Unterstützung bei fundierten Entscheidungen in Echtzeit – künstliche Intelligenz (KI) gestaltet die Zukunft verschiedener Branchen neu. Ein besonders faszinierender Bereich der KI ist Computer Vision, auch bekannt als Vision AI. Sie konzentriert sich darauf, Maschinen in die Lage zu versetzen, visuelle Daten so zu analysieren und zu interpretieren, wie Menschen es tun.
Insbesondere Computer-Vision-Modelle treiben Innovationen voran, die sowohl Sicherheit als auch Effizienz verbessern. Diese Modelle werden beispielsweise in selbstfahrenden Autos eingesetzt, um Fußgänger zu erkennen, oder in Sicherheitskameras, um Räumlichkeiten rund um die Uhr zu überwachen.
Einige der bekanntesten Computer-Vision-Modelle sind die YOLO (You Only Look Once) Modelle, die für ihre Fähigkeiten zur Objekterkennung in Echtzeit bekannt sind. Im Laufe der Zeit wurden YOLO-Modelle weiterentwickelt, wobei jede neue Version eine bessere Leistung und mehr Flexibilität bietet.
Neuere Versionen wie Ultralytics YOLO11 können eine Vielzahl von Aufgaben bewältigen, wie z. B. Instanzsegmentierung, Bildklassifizierung, Pose-Estimation und Multi-Object-Tracking, und das mit einer Genauigkeit, Geschwindigkeit und Präzision, die besser ist als je zuvor.
In diesem Artikel vergleichen wir Ultralytics YOLOv8, YOLOv9, YOLOv10 und Ultralytics YOLO11, um ein besseres Verständnis dafür zu bekommen, wie sich diese Modelle entwickelt haben. Wir analysieren ihre wichtigsten Funktionen, Benchmark-Ergebnisse und Leistungsunterschiede. Legen wir los!
Link to this sectionEin Überblick über Ultralytics YOLOv8#
YOLOv8, das am 10. Januar 2023 von Ultralytics veröffentlicht wurde, stellte einen bedeutenden Fortschritt gegenüber früheren YOLO-Modellen dar. Es ist für eine echtzeitfähige und präzise Erkennung optimiert und kombiniert bewährte Ansätze mit innovativen Updates für bessere Ergebnisse.
Es geht über die reine Objekterkennung hinaus und unterstützt auch die folgenden Computer-Vision-Aufgaben: Instanzsegmentierung, Pose-Estimation, Objekterkennung mit orientierten Bounding Boxes (OBB) sowie Bildklassifizierung. Ein weiteres wichtiges Merkmal von YOLOv8 ist, dass es in fünf verschiedenen Modellvarianten erhältlich ist – Nano, Small, Medium, Large und X –, sodass du je nach Bedarf das richtige Gleichgewicht zwischen Geschwindigkeit und Genauigkeit wählen kannst.
Aufgrund seiner Vielseitigkeit und starken Leistung kann YOLOv8 in vielen realen Anwendungen eingesetzt werden, wie z. B. in Sicherheitssystemen, Smart Cities, im Gesundheitswesen und in der industriellen Automatisierung.

Abb. 1. Parkraummanagement in Smart Cities mit YOLOv8.
Link to this sectionHauptfunktionen von YOLOv8#
Hier ist ein genauerer Blick auf einige der anderen Hauptfunktionen von YOLOv8:
- Verbesserte Erkennungsarchitektur: YOLOv8 verwendet ein verbessertes CSPDarknet-Backbone. Dieses Backbone ist für die Merkmalsextraktion optimiert – den Prozess der Identifizierung und Erfassung wichtiger Muster oder Details aus Eingangsbildern, die dem Modell helfen, genaue Vorhersagen zu treffen.
- Detection Head: Es verwendet ein anchor-free, entkoppeltes Design, was bedeutet, dass es sich nicht auf voreingestellte Bounding-Box-Formen (Anker) verlässt, sondern lernt, Objektpositionen direkt vorherzusagen. Aufgrund des entkoppelten Aufbaus werden die Aufgaben der Klassifizierung des Objekts und der Vorhersage seines Standorts (Regression) getrennt behandelt, was zur Verbesserung der Genauigkeit beiträgt und das Training beschleunigt.
- Gleichgewicht zwischen Genauigkeit und Geschwindigkeit: Dieses Modell erreicht eine beeindruckende Genauigkeit bei gleichzeitig schnellen Inferenzzeiten, wodurch es sowohl für Cloud- als auch für Edge-Umgebungen geeignet ist.
- Benutzerfreundlich: YOLOv8 ist so konzipiert, dass der Einstieg leichtfällt – du kannst mit dem Ultralytics Python-Paket in wenigen Minuten mit Vorhersagen beginnen und Ergebnisse sehen.
Link to this sectionYOLOv9 konzentriert sich auf rechnerische Effizienz#
YOLOv9 wurde am 21. Februar 2024 von Chien-Yao Wang und Hong-Yuan Mark Liao vom Institute of Information Science, Academia Sinica, Taiwan, veröffentlicht. Es unterstützt Aufgaben wie Objekterkennung und Instanzsegmentierung.
Dieses Modell baut auf Ultralytics YOLOv5 auf und führt zwei wichtige Innovationen ein: Programmable Gradient Information (PGI) und Generalized Efficient Layer Aggregation Network (GELAN).
PGI hilft YOLOv9 dabei, wichtige Informationen bei der Verarbeitung durch die Schichten beizubehalten, was zu genaueren Ergebnissen führt. Unterdessen verbessert GELAN die Art und Weise, wie das Modell seine Schichten nutzt, was die Leistung und rechnerische Effizienz steigert. Dank dieser Upgrades kann YOLOv9 Echtzeit-Aufgaben auf Edge-Geräten und mobilen Apps bewältigen, wo Rechenressourcen oft begrenzt sind.

Abb. 2. Verstehen, wie GELAN die Genauigkeit von YOLOv9 verbessert.
Link to this sectionHauptfunktionen von YOLOv9#
Hier ist ein Einblick in einige der anderen Hauptfunktionen von YOLOv9:
- Hohe Präzision bei Effizienz: YOLOv9 liefert eine hohe Erkennungsgenauigkeit, ohne viel Rechenleistung zu verbrauchen, was es zu einer großartigen Wahl macht, wenn Ressourcen begrenzt sind.
- Leichtgewichtige Modelle: Die leichtgewichtigen Modellvarianten von YOLOv9 sind für Edge- und mobile Deployments optimiert.
- Einfach zu bedienen: YOLOv9 wird vom Ultralytics Python-Paket unterstützt, daher ist es einfach einzurichten und in verschiedenen Umgebungen auszuführen, egal ob du Code oder die Kommandozeile verwendest.
Link to this sectionYOLOv10 ermöglicht NMS-freie Objekterkennung#
YOLOv10 wurde am 23. Mai 2024 von Forschern der Tsinghua-Universität vorgestellt und konzentriert sich auf die Objekterkennung in Echtzeit. Es beseitigt Einschränkungen früherer YOLO-Versionen, indem es den Bedarf an Non-Maximum Suppression (NMS) – einem Nachbearbeitungsschritt zur Eliminierung doppelter Erkennungen – entfernt und das gesamte Modelldesign verfeinert. Dies führt zu einer schnelleren und effizienteren Objekterkennung bei gleichzeitiger Erzielung modernster Genauigkeit.
Ein entscheidender Teil, der dies ermöglicht, ist ein Trainingsansatz, der als konsistente Dual-Label-Zuweisung bekannt ist. Er kombiniert zwei Strategien: eine, die es mehreren Vorhersagen ermöglicht, vom selben Objekt zu lernen (one-to-many), und eine andere, die sich auf die Auswahl der besten einzelnen Vorhersage konzentriert (one-to-one). Da beide Strategien denselben Matching-Regeln folgen, lernt das Modell, Duplikate von sich aus zu vermeiden, sodass NMS nicht erforderlich ist.

Abb. 3. YOLOv10 verwendet konsistente Dual-Label-Zuweisungen für NMS-freies Training.
Die Architektur von YOLOv10 verwendet zudem ein verbessertes CSPNet-Backbone, um Merkmale effektiver zu erlernen, sowie einen PAN (Path Aggregation Network)-Neck, der Informationen aus verschiedenen Schichten kombiniert und es so besser macht, sowohl kleine als auch große Objekte zu erkennen. Diese Verbesserungen ermöglichen es, YOLOv10 für reale Anwendungen in der Fertigung, im Einzelhandel und beim autonomen Fahren einzusetzen.
Link to this sectionHauptfunktionen von YOLOv10#
Hier sind einige der anderen herausragenden Funktionen von YOLOv10:
-
Large-Kernel Convolutions: Das Modell verwendet Large-Kernel Convolutions, um mehr Kontext aus weiteren Bereichen des Bildes zu erfassen, was ihm hilft, die Gesamtszene besser zu verstehen.
-
Partielle Self-Attention-Module: Das Modell integriert partielle Self-Attention-Module, um sich auf die wichtigsten Teile des Bildes zu konzentrieren, ohne zu viel Rechenleistung zu verbrauchen, was die Leistung effizient steigert.
-
Einzigartige Modellvariante: Neben den üblichen YOLOv10-Größen – Nano, Small, Medium, Large und X – gibt es auch eine spezielle Version namens YOLOv10b (Balanced). Es ist ein breiteres Modell, was bedeutet, dass es mehr Merkmale an jeder Schicht verarbeitet, was dazu beiträgt, die Genauigkeit zu verbessern und gleichzeitig Geschwindigkeit und Größe auszubalancieren.
-
Benutzerfreundlich: YOLOv10 ist mit dem Ultralytics Python-Paket kompatibel, was die Nutzung einfach macht.
Link to this sectionUltralytics YOLO11: Verbesserte Geschwindigkeit und Genauigkeit#
In diesem Jahr, am 30. September, hat Ultralytics offiziell YOLO11 – eines der neuesten Modelle der YOLO-Serie – auf seinem jährlichen Hybrid-Event, YOLO Vision 2024 (YV24), vorgestellt.
Diese Veröffentlichung führte bedeutende Verbesserungen gegenüber früheren Versionen ein. YOLO11 ist schneller, genauer und hocheffizient. Es unterstützt die gesamte Palette an Computer-Vision-Aufgaben, die YOLOv8-Benutzer kennen, einschließlich Objekterkennung, Instanzsegmentierung und Bildklassifizierung. Es behält zudem die Kompatibilität mit YOLOv8-Workflows bei, was es Benutzern leicht macht, reibungslos auf die neue Version umzusteigen.
Darüber hinaus ist YOLO11 so konzipiert, dass es eine breite Palette von Rechenanforderungen erfüllt – von leichtgewichtigen Edge-Geräten bis hin zu leistungsstarken Cloud-Systemen. Das Modell ist sowohl als Open-Source- als auch als Enterprise-Version erhältlich, wodurch es für verschiedene Anwendungsfälle anpassbar ist.
Es ist eine großartige Option für Präzisionsaufgaben wie medizinische Bildgebung und Satellitenerkennung sowie für breitere Anwendungen in autonomen Fahrzeugen, der Landwirtschaft und im Gesundheitswesen.

Abb. 4. Verwendung von Ultralytics YOLO11 zum Erkennen, Zählen und Verfolgen von Verkehr.
Link to this sectionHauptfunktionen von YOLO11#
Hier sind einige der anderen einzigartigen Funktionen von YOLO11:
- Schnelle und effiziente Erkennung: YOLO11 verfügt über einen Detection Head, der auf minimale Latenz ausgelegt ist und sich auf die Geschwindigkeit in den letzten Vorhersageschichten konzentriert, ohne die Leistung zu beeinträchtigen.
- Verbesserte Merkmalsextraktion: Eine optimierte Backbone- und Neck-Architektur verbessert die Merkmalsextraktion, was zu präziseren Vorhersagen führt.
- Nahtloses Deployment über Plattformen hinweg: YOLO11 ist darauf optimiert, effizient auf Edge-Geräten, Cloud-Plattformen und NVIDIA GPUs zu laufen, was die Anpassungsfähigkeit über verschiedene Umgebungen hinweg sicherstellt.
Link to this sectionBenchmarking von YOLO-Modellen auf dem COCO-Datensatz#
Wenn man verschiedene Modelle erforscht, ist es nicht immer einfach, sie nur durch Betrachtung ihrer Funktionen zu vergleichen. Hier kommt Benchmarking ins Spiel. Durch die Ausführung aller Modelle auf demselben Datensatz können wir ihre Leistung objektiv messen und vergleichen. Werfen wir einen Blick darauf, wie jedes Modell auf dem COCO-Datensatz abschneidet.
Beim Vergleich von YOLO-Modellen bringt jede neue Version bemerkenswerte Verbesserungen in Bezug auf Genauigkeit, Geschwindigkeit und Flexibilität. Insbesondere YOLO11m macht hier einen Sprung, da es 22 % weniger Parameter als YOLOv8m verwendet, was bedeutet, dass es leichter und schneller auszuführen ist. Trotz seiner geringeren Größe erreicht es zudem eine höhere Mean Average Precision (mAP) auf dem COCO-Datensatz. Diese Metrik misst, wie gut das Modell Objekte erkennt und lokalisiert; eine höhere mAP bedeutet also genauere Vorhersagen.

Abb. 5. Benchmarking von YOLO11 und anderen YOLO-Modellen auf dem COCO-Datensatz.
Link to this sectionTesten und Vergleichen von YOLO-Modellen anhand eines Videos#
Lass uns untersuchen, wie diese Modelle in einer realen Situation abschneiden.
Um YOLOv8, YOLOv9, YOLOv10 und YOLO11 zu vergleichen, wurden alle vier auf demselben Verkehrsvideo mit einem Confidence Score von 0,3 (das Modell zeigt Erkennungen nur an, wenn es zu mindestens 30 % sicher ist, dass es ein Objekt korrekt identifiziert hat) und einer Bildgröße von 640 für eine faire Bewertung ausgeführt. Die Objekterkennungs- und Tracking-Ergebnisse hoben wichtige Unterschiede bei Erkennungsgenauigkeit, Geschwindigkeit und Präzision hervor.
Vom ersten Frame an erkannte YOLO11 große Fahrzeuge wie Lastwagen, die YOLOv10 übersah. YOLOv8 und YOLOv9 zeigten eine ordentliche Leistung, variierten jedoch je nach Lichtverhältnissen und Objektgröße. Kleinere, weit entfernte Fahrzeuge blieben für alle Modelle eine Herausforderung, obwohl YOLO11 auch bei diesen Erkennungen spürbare Verbesserungen zeigte.

Abb. 6. Vergleich von YOLOv8, YOLOv9, YOLOv10 und YOLO11.
Was die Geschwindigkeit angeht, arbeiteten alle Modelle zwischen 10 und 20 Millisekunden pro Frame, schnell genug, um Echtzeit-Aufgaben mit über 50 FPS zu bewältigen. Einerseits boten YOLOv8 und YOLOv9 konsistente und zuverlässige Erkennungen während des gesamten Videos. Interessanterweise war YOLOv10, das für geringere Latenz entwickelt wurde, schneller, zeigte jedoch einige Inkonsistenzen bei der Erkennung bestimmter Objekttypen.
YOLO11 hingegen zeichnete sich durch seine Präzision aus und bot ein starkes Gleichgewicht zwischen Geschwindigkeit und Genauigkeit. Obwohl keines der Modelle in jedem Frame perfekt abschnitt, zeigte der direkte Vergleich deutlich, dass YOLO11 die beste Gesamtleistung lieferte.
Link to this sectionWelches YOLO-Modell ist das beste für Computer-Vision-Aufgaben?#
Die Auswahl eines Modells für ein Projekt hängt von dessen spezifischen Anforderungen ab. Einige Anwendungen könnten beispielsweise Geschwindigkeit priorisieren, während andere eine höhere Genauigkeit erfordern oder mit Deployment-Einschränkungen konfrontiert sind, die die Entscheidung beeinflussen.
Ein weiterer wichtiger Faktor ist die Art der Computer-Vision-Aufgaben, die du bewältigen musst. Wenn du nach breiterer Flexibilität für verschiedene Aufgaben suchst, sind YOLOv8 und YOLO11 gute Optionen.
Ob du dich für YOLOv8 oder YOLO11 entscheidest, hängt wirklich von deinen Bedürfnissen ab. YOLOv8 ist eine solide Option, wenn du neu in der Computer Vision bist und eine größere Community, mehr Tutorials und umfangreiche Integrationen von Drittanbietern schätzt.
Wenn du hingegen nach Spitzenleistung mit besserer Genauigkeit und Geschwindigkeit suchst, ist YOLO11 die bessere Wahl, auch wenn es aufgrund der neueren Veröffentlichung eine kleinere Community und weniger Integrationen hat.
Link to this sectionWichtige Erkenntnisse#
Von Ultralytics YOLOv8 bis Ultralytics YOLO11 spiegelt die Evolution der YOLO-Modellserie einen konsequenten Vorstoß zu intelligenteren Computer-Vision-Modellen wider. Jede Version von YOLO bringt sinnvolle Upgrades in Bezug auf Geschwindigkeit, Genauigkeit und Präzision.
Während die Computer Vision weiter voranschreitet, bieten diese Modelle zuverlässige Lösungen für reale Herausforderungen, von der Objekterkennung bis hin zu autonomen Systemen. Die kontinuierliche Entwicklung von YOLO-Modellen zeigt, wie weit das Feld gekommen ist und wie viel wir in Zukunft noch erwarten können.
Um mehr über KI zu erfahren, besuche unser GitHub-Repository und engagiere dich in unserer Community. Entdecke Fortschritte in verschiedenen Branchen, von Vision AI in der Fertigung bis hin zu Computer Vision im Gesundheitswesen. Sieh dir unsere Lizenzoptionen an, um noch heute mit deinen Vision-AI-Projekten zu beginnen.






