Ultralytics YOLO

Ultralytics YOLO26 vs. andere Ultralytics YOLO-Modelle für die Pose Estimation

Entdecke, wie Ultralytics YOLO26 die Pose-Estimation durch bessere Unterstützung für nicht-menschliche Keypoints, schnellere Konvergenz, verbesserte Okklusionsbehandlung und effiziente Echtzeit-Bereitstellung verbessert.

ABAbirami Vina4 min readMarch 9, 2026

Vergleich von Ultralytics YOLO26 mit anderen YOLO-Modellen für die Pose Estimation

Wenn du dir die Körperhaltung einer Person ansiehst, erkennst du leicht, ob sie krumm steht, sich nach vorne beugt oder aufrecht steht. Menschen können schnell erfassen, wie die verschiedenen Körperteile zueinander in Beziehung stehen.

Das ist ein wesentlicher Bestandteil davon, wie wir Bewegung und Körpersprache im Alltag interpretieren. Für Maschinen ist diese Art des visuellen Verständnisses jedoch nicht automatisch. Einem System beizubringen, Bewegungen und Strukturen zu erkennen, erfordert fortschrittliche Deep-Learning- und Computer Vision-Techniken, die es ihm ermöglichen, Bilder sinnvoll zu interpretieren.

Insbesondere Pose Estimation ist eine Vision-KI-Technik, die es einem Computer-Vision-Modell ermöglicht, ein ähnliches Verständnis aufzubauen. Anstatt nur ein Objekt in einem Bild zu erkennen, sagt das Modell Keypoints voraus, die wichtige strukturelle Fixpunkte darstellen.

Diese Keypoints können Körpergelenken, tierischen Gliedmaßen, Maschinenkomponenten oder sogar festen Punkten wie Spielfeldecken entsprechen. Durch das Identifizieren und Verfolgen dieser Punkte kann das System Position, Ausrichtung und Bewegung strukturiert und messbar erfassen.

Da Pose Estimation in immer mehr realen Szenarien eingesetzt wird, müssen Modelle nicht-menschliche Keypoints, komplexe Szenen und benutzerdefinierte Datensätze effektiver verarbeiten. Zum Beispiel unterstützen modernste Modelle wie Ultralytics YOLO26 Computer-Vision-Aufgaben wie Pose Estimation und bauen auf früheren YOLO-Pose-Modellen auf – mit architektonischen und trainingsbezogenen Verbesserungen, die auf mehr Flexibilität und Gesamtleistung ausgelegt sind.

Ein Beispiel für Pose-Estimation mit YOLO

Abb. 1. Ein Beispiel für Pose Estimation mit YOLO (Quelle)

In diesem Artikel vergleichen wir YOLO26-pose mit früheren Ultralytics YOLO-Pose-Modellen und untersuchen, wie es die Flexibilität, Konvergenzgeschwindigkeit und Leistung in komplexen Szenen verbessert. Lass uns anfangen!

Link to this sectionWas ist Pose-Schätzung?#

Bevor wir in den Vergleich der Ultralytics YOLO-Pose-Modelle eintauchen, schauen wir uns genauer an, was Pose Estimation im Kontext von Computer Vision eigentlich bedeutet.

Pose Estimation ist eine Technik, mit der spezifische Keypoints in einem Bild oder Videobild erkannt und verfolgt werden. Diese Keypoints können wichtige strukturelle Fixpunkte darstellen, wie z. B. Gelenke eines menschlichen Körpers, Gliedmaßen eines Tieres, Komponenten einer Maschine oder feste Referenzpunkte in einer Szene.

Schätzung der Körperhaltung von Arbeitern mittels Human Pose Estimation

Abb. 2. Schätzung der Körperhaltung von Arbeitern mittels menschlicher Pose Estimation (Quelle)

Durch die Identifizierung der Koordinaten dieser Punkte kann ein Modell verstehen, wie ein Objekt positioniert ist und wie es sich im Laufe der Zeit bewegt. Im Gegensatz zur Bildklassifizierung, die einem gesamten Bild ein einzelnes Label zuweist, oder Objekt-Erkennungsmodellen, die sich auf das Zeichnen von Bounding Boxes um Objekte konzentrieren, liefert Pose Estimation detailliertere räumliche Informationen über Struktur und Bewegung.

Link to this sectionEin Überblick über YOLO26-pose#

YOLO26-pose ist in mehreren Modellvarianten bzw. Modellgrößen erhältlich, darunter leichtgewichtige Optionen wie YOLO26n-pose und größere Modelle wie YOLO26m-pose, YOLO26l-pose und YOLO26x-pose. Dies ermöglicht es Teams, je nach Hardware und Leistungsanforderungen das richtige Gleichgewicht zwischen Geschwindigkeit und Genauigkeit zu wählen.

Ultralytics stellt auch vortrainierte Pose-Modelle bereit, die auf großen, allgemeinen Datensätzen wie dem COCO-Datensatz trainiert wurden, speziell die COCO-Pose-Annotationen (COCO keypoints) für menschliche Pose Estimation, damit du nicht bei Null anfangen musst. In den meisten Fällen optimieren Teams diese Modelle auf ihrem eigenen Datensatz, um sie an spezifische Keypoints, Layouts oder Umgebungen anzupassen.

Dies erfordert in der Regel die Vorbereitung benutzerdefinierter Annotationsdateien, die Keypoint-Koordinaten und Klassenlabels in einem strukturierten Format definieren. Diese Annotationen ordnen Keypoints spezifischen Pixelkoordinaten innerhalb jedes Bildes zu, wodurch das Modell während des Trainings präzise räumliche Beziehungen erlernen kann.

Die Verwendung vortrainierter Modelle macht das Training schneller, reduziert die Datenanforderungen und hilft dabei, Projekte effizienter in die Produktion zu bringen.

Link to this sectionReale Anwendungen der menschlichen Pose Estimation#

Hier ist ein Einblick in einige reale Anwendungsfälle, in denen Pose Estimation eine wichtige Rolle spielt:

Gesundheitswesen und Rehabilitation: Kliniker können Pose-Modelle verwenden, um die Haltung zu beurteilen, den Genesungsfortschritt zu überwachen und Bewegungsmuster während der Physiotherapie zu analysieren.
Autonome Systeme: Drohnen und smarte Kameras können Pose-Informationen nutzen, um die Ausrichtung und Bewegung von Objekten in dynamischen Szenen besser zu verstehen.
Arbeitssicherheit: Organisationen können Körperpositionierung und repetitive Bewegungen überwachen, um potenzielle Sicherheitsrisiken zu identifizieren.
Fitness und persönliches Training: Fitness-Apps nutzen Pose Estimation, um die Übungsausführung zu verfolgen, Wiederholungen zu zählen und Echtzeit-Feedback zur Körperhaltung und Bewegung während der Fitnesstrainings zu geben.

Pose-Estimation beim Tracking wichtiger Körperpunkte während einer sportlichen Bewegung

Abb. 3. Pose Estimation kann helfen, wichtige Körperpunkte während athletischer Bewegung zu verfolgen. (Quelle)

Link to this sectionErkundung der Unterstützung von Ultralytics YOLO26 für Pose Estimation#

Ultralytics YOLO26 baut auf früheren Ultralytics YOLO-Modellen auf, mit Aktualisierungen, die das Training und die Bereitstellung praxisorientierter machen.

Wie bei früheren Versionen wird Pose Estimation als Teil eines einheitlichen Frameworks unterstützt. Der Hauptunterschied besteht darin, dass YOLO26 darauf ausgelegt ist, flexibler und stabiler für ein breiteres Spektrum an realen Anwendungsfällen zu sein.

Benchmarking der Leistung von Ultralytics YOLO26

Abb. 4. Benchmarking von YOLO26 (Quelle)

Frühere Ultralytics YOLO-Pose-Modelle waren stark von menschlichen Pose-Datensätzen beeinflusst, was bedeutete, dass Teile der älteren Methoden auf menschliche Gelenkstrukturen optimiert waren. YOLO26 entfernt diese menschspezifischen Annahmen.

Dadurch ist es besser für nicht-menschliche Keypoints geeignet, wie z. B. das Erkennen der Ecken eines Tennisplatzes oder anderer benutzerdefinierter struktureller Fixpunkte. Dies ist bedeutend, da vortrainierte YOLO26-pose-Modelle standardmäßig auf Datensätzen wie COCO-pose trainiert werden und menschliche Keypoints vorhersagen, die in den Datensatz-Annotationen definiert sind.

Wenn Teams jedoch andere Arten von Fixpunkten erkennen wollen – etwa Maschinenkomponenten, Markierungen auf Sportfeldern oder Infrastrukturpunkte –, muss das Modell normalerweise auf einem benutzerdefinierten Datensatz feinabgestimmt werden, in dem diese spezifischen Keypoints annotiert sind.

Da YOLO26 nicht an Annahmen über menschliche Gelenkstrukturen gebunden ist, kann es sich während des Fine-Tunings effektiver anpassen. Diese Flexibilität ermöglicht es dem Modell, benutzerdefinierte Keypoint-Layouts zuverlässiger zu erlernen, was bei der Validierung auf Datensätzen mit einzigartigen Keypoint-Konfigurationen zu verbesserten Evaluierungsmetriken führt.

YOLO26-pose ist zudem darauf ausgelegt, die Keypoint-Lokalisierung zu verbessern, wenn Teile eines Objekts teilweise verdeckt sind oder nur sehr klein erscheinen. In realen Szenen mit weit entfernten Subjekten, Drohnenaufnahmen oder Szenarien mit kleinen Objekten kann dies zu präziseren Keypoint-Vorhersagen im Vergleich zu früheren Pose-Modellen führen.

Ein weiteres wichtiges Update ist die verbesserte Verlustformulierung (Loss Formulation), die während des Trainings verwendet wird. Die Verlustfunktion bestimmt, wie das Modell seine Fehler korrigiert, während es lernt.

Bei YOLO26-pose ist dieser Prozess effektiver, was dem Modell hilft, schneller zu lernen und in weniger Epochen eine hohe Genauigkeit zu erreichen, wobei eine Epoche einen vollständigen Durchlauf durch den Trainingsdatensatz bezeichnet.

Insgesamt baut YOLO26-pose auf früheren Ultralytics YOLO-Pose-Modellen auf und bietet klare Verbesserungen bei der Unterstützung nicht-menschlicher Keypoints sowie bei der Trainingskonvergenz, während der gleiche vertraute Workflow beibehalten wird.

Link to this sectionVergleich von YOLO26-pose mit Ultralytics YOLOv5#

Die früheste Version der Ultralytics YOLO-Modelle, Ultralytics YOLOv5, wurde hauptsächlich für die Objekterkennung entwickelt. Obwohl YOLOv5 später um die Unterstützung für Instanzsegmentierung erweitert wurde, enthält es kein natives, spezialisiertes Pose-Estimation-Head innerhalb des offiziellen Ultralytics-Frameworks.

Teams, die Keypoint-Erkennung benötigten, verließen sich in der Regel auf separate Implementierungen oder benutzerdefinierte Modifikationen. Ultralytics YOLO26 enthält Pose Estimation als integrierte Aufgabe mit einem dedizierten architektonischen Head, der speziell für die Vorhersage von Keypoints entwickelt wurde.

Dies bedeutet, dass YOLO26-pose-Modelle im selben einheitlichen Workflow wie Erkennung und Segmentierung trainiert, validiert und bereitgestellt werden können. Für Projekte, die sich auf strukturierte Keypoint-Erkennung konzentrieren, bietet YOLO26 native Pose-Unterstützung und eine aufgabenbezogene Architektur, die YOLOv5 von Haus aus nicht bietet.

Link to this sectionHauptunterschiede: YOLO26-pose vs. Ultralytics YOLOv8-pose#

Ultralytics YOLOv8 führte die native Pose Estimation innerhalb des einheitlichen Ultralytics-Frameworks ein, wodurch es einfach wurde, Keypoint-Modelle mit demselben Workflow wie bei der Erkennung und Segmentierung zu trainieren und bereitzustellen. Es basiert auf einer traditionellen Post-Processing-Pipeline mit Non-Maximum Suppression (NMS) und verwendet frühere Verlustformulierungen für Bounding Box-Regression und Training.

YOLO26 baut auf diesem Fundament mit architektonischen und trainingsbezogenen Aktualisierungen auf, die sich direkt auf die Pose Estimation auswirken. Ein wesentlicher Unterschied ist das End-to-End-Design. YOLO26 macht externes NMS während der Inferenz überflüssig, was die Bereitstellung vereinfacht und die Latenzkonsistenz verbessert, insbesondere auf CPUs und Edge-Geräten.

Eine weitere wichtige Verbesserung liegt in der Trainingsmethodik. YOLO26 führt den MuSGD-Optimierer zusammen mit aktualisierten Verluststrategien ein. Für Pose-Aufgaben integriert es Residual Log-Likelihood Estimation, was die Modellierung der Keypoint-Unsicherheit verbessert. Zusammengenommen können diese Änderungen zu einer schnelleren Konvergenz und stabileren Keypoint-Vorhersagen führen, insbesondere in komplexen oder teilweise verdeckten Szenen.

Kurz gesagt: YOLOv8-pose hat eine solide und vielseitige Basis geschaffen. YOLO26-pose verfeinert diese Basis mit verbesserter Trainingseffizienz, besserem Umgang mit Verdeckungen und größerer Flexibilität für reale, nicht-menschliche Pose-Anwendungen.

Link to this sectionYOLO26-pose vs. Ultralytics YOLO11-pose: Was hat sich verbessert?#

Ultralytics YOLO11 baut auf Ultralytics YOLOv8 auf, indem es das Backbone und die Merkmalsextraktionsschichten verfeinert. Es reduziert FLOPs, verbessert die Parametereffizienz und liefert eine höhere mAP bei gleichbleibend starker Echtzeitleistung. Für Pose-Aufgaben bedeutete dies eine bessere Keypoint-Genauigkeit bei einer leichteren Architektur.

YOLO26-pose setzt diese Entwicklung mit einem grundlegenderen architektonischen Wandel fort. Einfach ausgedrückt: YOLO11 verfeinerte die Effizienz und Genauigkeit von YOLOv8, und YOLO26 baut auf diesem Fundament mit architektonischen und trainingsbezogenen Updates auf, die auf schnellere Konvergenz, stabilere Inferenz und verbesserte Pose-Genauigkeit in komplexen Szenarien abzielen.

Link to this sectionWarum solltest du anfangen, das YOLO26-Modell für Pose Estimation zu verwenden?#

Während du die Unterschiede zwischen den Ultralytics YOLO-Modellen erkundest, fragst du dich vielleicht, ob du auf YOLO26-pose umsteigen solltest.

Die kurze Antwort lautet: Es ist ein einfaches Upgrade. Wenn du bereits Ultralytics YOLOv8-pose oder Ultralytics YOLO11-pose verwendest, bedeutet der Wechsel zu YOLO26-pose normalerweise nur, die Modellversion zu ändern, nicht deine Pipeline neu zu erstellen.

Du profitierst von besserer Unterstützung für nicht-menschliche Keypoints, schnellerer Konvergenz während des Trainings und verbessertem Umgang mit verdeckten Punkten – alles innerhalb desselben Ultralytics-Frameworks. Für die meisten neuen und bestehenden Pose-Projekte ist der Umstieg auf YOLO26-pose ein unkomplizierter Weg, um diese Verbesserungen mit minimalem Aufwand zu erhalten.

Darüber hinaus wird YOLO26-pose vollständig vom Ultralytics Python-Paket unterstützt, das auf PyTorch basiert und Training, Validierung sowie Bereitstellung vereinfacht. Modelle können in Formate wie ONNX, TensorRT, OpenVINO, CoreML und TFLite exportiert werden, was die Bereitstellung auf GPUs, CPUs und Edge-Geräten erleichtert, ohne deinen gesamten Workflow zu ändern.

Link to this sectionWichtige Erkenntnisse#

Ultralytics YOLO26-pose macht Pose Estimation flexibler und zuverlässiger, insbesondere bei der Arbeit mit nicht-menschlichen Keypoints oder in komplexen Szenen. Es trainiert schneller, geht besser mit Verdeckungen um und liefert konsistentere Ergebnisse über verschiedene Datensätze hinweg. Für Teams, die bereits Ultralytics YOLO-Pose-Modelle verwenden, bietet YOLO26 klare Verbesserungen, ohne bestehende Workflows zu verändern.

Möchtest du mehr über KI erfahren? Schau dir unsere Community und unser GitHub-Repository an. Entdecke unsere Lösungsseiten, um mehr über KI in der Robotik und Computer Vision in der Landwirtschaft zu erfahren. Informiere dich über unsere Lizenzierungsoptionen und beginne noch heute mit der Entwicklung von Computer-Vision-Anwendungen!