Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Cookie-Einstellungen
Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Entdecken Sie, wie Ultralytics die Posenschätzung durch bessere Unterstützung nicht-menschlicher Schlüsselpunkte, schnellere Konvergenz, verbesserte Okklusionsbehandlung und effiziente Echtzeit-Bereitstellung verbessert.
Skalieren Sie Ihre Computer-Vision-Projekte mit Ultralytics
Wenn man die Körperhaltung einer Person betrachtet, fällt schnell auf, ob sie krumm dasitzt, sich nach vorne beugt oder aufrecht steht. Menschen können schnell erkennen, wie verschiedene Körperteile zueinander in Beziehung stehen.
Es ist ein fester Bestandteil unserer Interpretation von Bewegungen und Körpersprache im Alltag. Für Maschinen ist diese Art des visuellen Verständnisses jedoch nicht automatisch gegeben. Um einem System das Erkennen von Bewegungen und Strukturen beizubringen, sind fortschrittliche Deep-Learning- und Computer-Vision-Techniken erforderlich, die es ihm ermöglichen, Bilder auf sinnvolle Weise zu interpretieren.
Insbesondere die Posenschätzung ist eine Bildverarbeitungs-KI-Technik, die es einem Computer-Vision-Modell ermöglicht, ein ähnliches Verständnis aufzubauen. Anstatt einfach nur ein Objekt in einem Bild zu erkennen, sagt das Modell Schlüsselpunkte voraus, die wichtige strukturelle Orientierungspunkte darstellen.
Diese Schlüsselpunkte können Körpergelenken, Tiergliedmaßen, Maschinenkomponenten oder sogar festen Punkten wie Eckpunkten entsprechen. Durch die Identifizierung und Verfolgung dieser Punkte kann das System Position, Ausrichtung und Bewegung auf strukturierte und messbare Weise erfassen.
Da die Posenschätzung zunehmend in realen Szenarien zum Einsatz kommt, müssen Modelle nicht-menschliche Schlüsselpunkte, komplexe Szenen und benutzerdefinierte Datensätze effektiver verarbeiten können. So unterstützen beispielsweise modernste Modelle wie Ultralytics Computer-Vision-Aufgaben wie die Posenschätzung und bauen auf früheren YOLO auf, wobei architektonische und trainingsbezogene Verbesserungen vorgenommen wurden, um die Flexibilität und Gesamtleistung zu steigern.
Abb. 1: Ein Beispiel für die durch YOLO ermöglichte Posenschätzung YOLO Quelle)
In diesem Artikel vergleichen wir YOLO26-pose mit früheren Ultralytics YOLO und untersuchen, wie es die Flexibilität, Konvergenzgeschwindigkeit und Leistung in komplexen Szenen verbessert. Los geht's!
Was ist Pose Estimation?
Bevor wir uns mit dem Vergleich befassen Ultralytics YOLO Pose-Modelle zu vergleichen, wollen wir uns zunächst einmal genauer ansehen, was Pose-Schätzung im Zusammenhang mit Computer Vision eigentlich bedeutet.
Die Posenschätzung ist eine Technik, mit der track Schlüsselpunkte in einem Bild oder Videobild detect track werden können. Diese Schlüsselpunkte können wichtige strukturelle Orientierungspunkte darstellen, wie beispielsweise Gelenke am menschlichen Körper, Gliedmaßen eines Tieres, Bauteile einer Maschine oder feste Referenzpunkte in einer Szene.
Abb. 2: Schätzung der Körperhaltung von Arbeitern mithilfe der menschlichen Körperhaltungsschätzung (Quelle)
Durch die Identifizierung der Koordinaten dieser Punkte kann ein Modell verstehen, wie ein Objekt positioniert ist und wie es sich im Laufe der Zeit bewegt. Im Gegensatz zur Bildklassifizierung, bei der einem gesamten Bild ein einziges Label zugewiesen wird, oder zu Objekterkennungsmodellen, die sich auf das Zeichnen von Begrenzungsrahmen um Objekte konzentrieren, liefert die Posenschätzung detailliertere räumliche Informationen über Struktur und Bewegung.
Ein Überblick über YOLO26-Pose
YOLO26-pose ist in mehreren Modellvarianten oder Modellgrößen erhältlich, darunter leichtgewichtige Optionen wie YOLO26n-pose und größere Modelle wie YOLO26m-pose, YOLO26l-pose und YOLO26x-pose. So können Teams je nach Hardware und Leistungsanforderungen die richtige Balance zwischen Geschwindigkeit und Genauigkeit wählen.
Ultralytics bietet Ultralytics vortrainierte Posemodelle, die auf großen, allgemeinen Datensätzen wie dem COCO trainiert wurden, insbesondere die COCO-Annotationen (COCO ) für die Schätzung menschlicher Posen, sodass Sie nicht bei Null anfangen müssen. In den meisten Fällen optimieren Teams diese Modelle anhand ihrer eigenen Datensätze, um sie an bestimmte Keypoints, Layouts oder Umgebungen anzupassen.
Dazu müssen in der Regel benutzerdefinierte Annotationsdateien erstellt werden, die Schlüsselpunktkoordinaten und Klassenbezeichnungen in einem strukturierten Format definieren. Diese Annotationen ordnen Schlüsselpunkte bestimmten Pixelkoordinaten innerhalb jedes Bildes zu, sodass das Modell während des Trainings präzise räumliche Beziehungen lernen kann.
Die Verwendung vorab trainierter Modelle beschleunigt das Training, reduziert den Datenbedarf und trägt dazu bei, Projekte effizienter in die Produktion zu überführen.
Praktische Anwendungen der menschlichen Posenschätzung
Hier ein Überblick über einige Anwendungsfälle aus der Praxis, in denen die Posenschätzung eine wichtige Rolle spielt:
Gesundheitswesen und Rehabilitation: Ärzte können Posemodelle verwenden, um die Körperhaltung zu beurteilen, den Genesungsfortschritt zu überwachen und Bewegungsmuster während der Physiotherapie zu analysieren.
Autonome Systeme: Drohnen und intelligente Kameras können Positionsdaten nutzen, um die Ausrichtung und Bewegung von Objekten in dynamischen Szenen besser zu verstehen.
Sicherheit am Arbeitsplatz: Unternehmen können die Körperhaltung und repetitive Bewegungen überwachen, um potenzielle Sicherheitsrisiken zu erkennen.
Fitness und Personal Training:Fitness-Apps verwenden Posenschätzung, um track , Wiederholungen zu zählen und Echtzeit-Feedback zur Haltung und Bewegung während der Fitness-Tutorials zu geben.
Abb. 3: Die Posenschätzung kann dabei helfen, track Körperpunkte während sportlicher Bewegungen track . (Quelle)
Entdecken Sie die Unterstützung Ultralytics für die Posenschätzung
Ultralytics baut auf früheren Ultralytics YOLO auf und enthält Aktualisierungen, die das Training und die Bereitstellung praktischer gestalten sollen.
Wie frühere Versionen unterstützt es die Posenschätzung als Teil eines einheitlichen Frameworks. Der Hauptunterschied besteht darin, dass YOLO26 flexibler und stabiler für eine größere Bandbreite realer Anwendungsfälle ausgelegt ist.
FrühereYOLO Ultralytics wurden weitgehend von Datensätzen menschlicher Posen beeinflusst, was bedeutete, dass Teile der älteren Methoden auf menschliche Gelenkstrukturen optimiert waren. YOLO26 beseitigt diese menschenbezogenen Annahmen.
Daher eignet es sich besser für nicht-menschliche Schlüsselpunkte, wie beispielsweise die Erkennung der Ecken eines Tennisplatzes oder anderer benutzerdefinierter struktureller Orientierungspunkte. Dies ist von Bedeutung, da vorgefertigte, vortrainierte YOLO26-Pose-Modelle auf Datensätzen wie COCO trainiert werden und menschliche Schlüsselpunkte vorhersagen, die in den Datensatz-Annotationen definiert sind.
Wenn Teams jedoch detect Arten von Orientierungspunkten detect möchten, wie beispielsweise Maschinenkomponenten, Markierungen auf Sportplätzen oder Infrastrukturpunkte, muss das Modell in der Regel anhand eines benutzerdefinierten Datensatzes, in dem diese spezifischen Schlüsselpunkte annotiert sind, feinabgestimmt werden.
Da YOLO26 nicht an Annahmen über menschliche Gelenkstrukturen gebunden ist, kann es sich während der Feinabstimmung effektiver anpassen. Diese Flexibilität ermöglicht es dem Modell, benutzerdefinierte Keypoint-Layouts zuverlässiger zu lernen, was zu verbesserten Bewertungsmetriken bei der Validierung von Datensätzen mit einzigartigen Keypoint-Konfigurationen führt.
YOLO26-Pose wurde auch entwickelt, um die Lokalisierung von Schlüsselpunkten zu verbessern, wenn Teile eines Objekts teilweise verdeckt sind oder in sehr kleinem Maßstab erscheinen. In realen Szenen mit weit entfernten Motiven, Drohnenaufnahmen oder kleinen Objekten kann dies im Vergleich zu früheren Posemodellen zu genaueren Schlüsselpunktvorhersagen führen.
Eine weitere wichtige Neuerung ist die verbesserte Verlustformulierung, die während des Trainings verwendet wird. Die Verlustfunktion bestimmt, wie das Modell seine Fehler während des Lernens korrigiert.
Bei YOLO26-Pose ist dieser Prozess effektiver, wodurch das Modell schneller lernt und in weniger Epochen eine hohe Genauigkeit erreicht. Eine Epoche bezeichnet dabei einen vollständigen Durchlauf des Trainingsdatensatzes.
Insgesamt baut YOLO26-pose auf früheren Ultralytics YOLO Modellen auf und bietet deutliche Verbesserungen bei der Unterstützung nicht-menschlicher Schlüsselpunkte und der Trainingskonvergenz, während der gewohnte Arbeitsablauf beibehalten wird.
Vergleich zwischen YOLO26-Pose und Ultralytics YOLOv5
Die früheste Version der Ultralytics YOLO , Ultralytics YOLOv5, wurde in erster Linie für die Objekterkennung entwickelt. Obwohl YOLOv5 um die Unterstützung der Instanzsegmentierung erweitert wurde, enthält es keinen nativen, spezialisierten Posenschätzungskopf innerhalb des offiziellen Ultralytics .
Teams, die eine Keypoint-Erkennung benötigten, waren in der Regel auf separate Implementierungen oder benutzerdefinierte Anpassungen angewiesen. Ultralytics umfasst die Posenschätzung als integrierte Aufgabe mit einem speziellen Architekturkopf, der speziell für die Vorhersage von Keypoints entwickelt wurde.
Das bedeutet, dass YOLO26-Posenmodelle innerhalb desselben einheitlichen Workflows wie Erkennung und Segmentierung trainiert, validiert und eingesetzt werden können. Für Projekte, die sich auf die strukturierte Erkennung von Schlüsselpunkten konzentrieren, bietet YOLO26 native Posenunterstützung und eine aufgabenspezifische Architektur, die YOLOv5 von Haus aus bietet.
Wichtige Unterschiede: YOLO26-Pose vs. Ultralytics YOLOv8
Ultralytics YOLOv8 führte die native Posenschätzung innerhalb des einheitlichen Ultralytics ein, wodurch das Trainieren und Bereitstellen von Keypoint-Modellen unter Verwendung desselben Workflows wie bei der Erkennung und Segmentierung vereinfacht wurde. Es basiert auf einer traditionellen Nachbearbeitungspipeline mit Nicht-Maximalunterdrückung (NMS) und verwendet frühere Verlustformulierungen für die Bounding-Box-Regression und das Training.
YOLO26 baut auf dieser Grundlage auf und bietet architektonische und trainingsbezogene Aktualisierungen, die sich direkt auf die Posenschätzung auswirken. Ein wesentlicher Unterschied ist das End-to-End-Design. YOLO26 macht externe NMS der Inferenz überflüssig, was die Bereitstellung vereinfacht und die Latenzkonsistenz verbessert, insbesondere auf CPUs und Edge-Geräten.
Eine weitere wichtige Verbesserung betrifft die Trainingsmethodik. YOLO26 führt den MuSGD-Optimierer zusammen mit aktualisierten Verluststrategien ein. Für Positionsaufgaben integriert es die Residual Log-Likelihood Estimation, die die Modellierung der Keypoint-Unsicherheit verbessert. Zusammen können diese Änderungen zu einer schnelleren Konvergenz und stabileren Keypoint-Vorhersagen führen, insbesondere in komplexen oder teilweise verdeckten Szenen.
Kurz gesagt, YOLOv8 hat eine starke und vielseitige Basis geschaffen. YOLO26-pose verfeinert diese Basis durch verbesserte Trainingseffizienz, bessere Handhabung von Okklusion und größere Flexibilität für reale, nicht-menschliche Posenanwendungen.
YOLO26-Pose vs. Ultralytics YOLO11: Was wurde verbessert?
Ultralytics YOLO11 baut auf Ultralytics YOLOv8 auf,YOLOv8 es das Backbone und die Feature-Extraktionsschichten verfeinert. Es reduzierte die FLOPs, verbesserte die Parametereffizienz und lieferte mAP höhere mAP gleichbleibend starker Echtzeitleistung. Für Pose-Aufgaben bedeutete dies eine bessere Keypoint-Genauigkeit bei einer leichteren Architektur.
YOLO26-Pose setzt diese Entwicklung mit einer grundlegenderen architektonischen Veränderung fort. Einfach ausgedrückt: YOLO11 die Effizienz und Genauigkeit von YOLOv8 YOLO11 , und YOLO26 baut auf dieser Grundlage mit architektonischen und Trainingsaktualisierungen auf, die auf eine schnellere Konvergenz, stabilere Inferenz und verbesserte Posengenauigkeit in komplexen Szenarien abzielen.
Warum sollten Sie das YOLO26-Modell für die Posenschätzung verwenden?
Wenn Sie sich mit den Unterschieden zwischenYOLO Ultralytics beschäftigen, fragen Sie sich vielleicht, ob Sie zu YOLO26-pose wechseln sollten.
Die kurze Antwort lautet: Es handelt sich um ein einfaches Upgrade. Wenn Sie bereits Ultralytics YOLOv8 oder Ultralytics YOLO11 verwenden, bedeutet der Wechsel zu YOLO26-pose in der Regel nur eine Änderung der Modellversion und nicht den Neuaufbau Ihrer Pipeline.
Sie profitieren von einer besseren Unterstützung für nicht-menschliche Schlüsselpunkte, einer schnelleren Konvergenz während des Trainings und einer verbesserten Handhabung von verdeckten Punkten, während Sie im gleichen Ultralytics bleiben. Für die meisten neuen und bestehenden Pose-Projekte ist die Umstellung auf YOLO26-Pose ein einfacher Weg, um diese Verbesserungen mit minimalem Aufwand zu erzielen.
Darüber hinaus wird YOLO26-pose vollständig im Ultralytics Python unterstützt, das auf PyTorch basiert PyTorch das Training, die Validierung und die Bereitstellung vereinfacht. Modelle können in Formate wie ONNX, TensorRT, OpenVINO, CoreML und TFLite exportiert werden, wodurch die Bereitstellung auf GPUs, CPUs und Edge-Geräten vereinfacht wird, ohne dass Sie Ihren gesamten Workflow ändern müssen.
Wesentliche Erkenntnisse
Ultralytics macht die Posenschätzung flexibler und zuverlässiger, insbesondere bei der Arbeit mit nicht-menschlichen Schlüsselpunkten oder komplexen Szenen. Es trainiert schneller, geht besser mit Verdeckungen um und liefert konsistentere Ergebnisse über verschiedene Datensätze hinweg. Für Teams, die bereits Ultralytics YOLO verwenden, bietet YOLO26 deutliche Verbesserungen, ohne bestehende Arbeitsabläufe zu verändern.