Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Anleitungen

Was ist Pose Estimation und wo kann sie eingesetzt werden?

Erfahre, wie Pose Estimation funktioniert, welche realen Anwendungen es gibt und wie Modelle wie Ultralytics YOLO11 Maschinen in die Lage versetzen, Körperbewegungen und -haltungen zu interpretieren.

ABAbirami Vina
5 min read
Was ist Pose Estimation und wo sie eingesetzt werden kann

Wenn du jemanden siehst, der krumm dasteht oder aufrecht mit zurückgezogenen Schultern, ist sofort klar, ob seine Körperhaltung schlecht oder selbstbewusst ist. Niemand muss dir das erklären. Das liegt daran, dass wir im Laufe der Zeit auf natürliche Weise gelernt haben, Körpersprache zu interpretieren.

Durch Erfahrung und Beobachtung sind unsere Gehirne sehr gut darin geworden, die Körperhaltung verschiedener Objekte, einschließlich Menschen, zu erkennen. Dank jüngster Fortschritte in der künstlichen Intelligenz (KI) und Computer Vision, einem Bereich, der es Maschinen ermöglicht, visuelle Informationen aus der Welt zu interpretieren, beginnen Maschinen nun ebenfalls, diese Fähigkeit zu erlernen und zu replizieren.

Pose-Estimation ist eine Aufgabe der Computer Vision, die Maschinen dabei hilft, die Position und Ausrichtung einer Person oder eines Objekts durch Betrachten von Bildern oder Videos zu bestimmen. Dies geschieht durch die Identifizierung von Schlüsselpunkten am Körper, wie Gelenken und Gliedmaßen, um zu verstehen, wie sich jemand oder sogar etwas bewegt.

Diese Technologie wird in Bereichen wie Fitness, Gesundheitswesen und Animation weit verbreitet eingesetzt. In Arbeitsumgebungen kann sie beispielsweise genutzt werden, um die Körperhaltung von Mitarbeitern zu überwachen und Sicherheits- sowie Gesundheitsinitiativen zu unterstützen. Computer-Vision-Modelle wie Ultralytics YOLO11 machen dies möglich, indem sie menschliche Posen in Echtzeit schätzen.

Verwendung von YOLO11 zur Überwachung der Arbeitshaltung

Abb. 1. Ein Beispiel für die Verwendung von YOLO11 zur Überwachung der Körperhaltung von Arbeitern.

In diesem Artikel werden wir uns die Pose-Estimation und ihre Funktionsweise genauer ansehen, zusammen mit realen Anwendungsfällen, in denen sie einen Unterschied macht. Lass uns anfangen!

Link to this sectionDie Entwicklung der Pose-Estimation#

Die Forschung zur Pose-Estimation begann bereits in den späten 1960er und 70er Jahren. Im Laufe der Jahre haben sich die Ansätze für diese Computer-Vision-Aufgabe von grundlegender Mathematik und Geometrie hin zu fortgeschritteneren, durch künstliche Intelligenz gesteuerten Methoden entwickelt.

Anfangs hingen Techniken von festen Kamerawinkeln und bekannten Referenzpunkten ab. Später entwickelten sie sich weiter und umfassten 3D-Modelle und Merkmalsabgleiche. Heute können Deep-Learning-Modelle wie YOLO11 Körperpositionen in Echtzeit aus Bildern oder Videos erkennen, was die Pose-Estimation schneller und genauer macht als je zuvor.

Mit der technologischen Verbesserung erkannten Forscher die potenziellen Anwendungen, die Posen verschiedener Objekte, insbesondere von Menschen und Tieren, überwachen und verfolgen zu können. Pose-Estimation ist besonders wichtig, da sie KI-Tools ermöglicht, Körperhaltung und Bewegung auf eine Weise zu verstehen und zu messen, die vorher nicht möglich war.

Beispielsweise ermöglicht es Computern, Gesten für eine freihändige Interaktion zu erkennen, analysiert Bewegungen von Sportlern zur Leistungsverbesserung, ermöglicht realistische Animationen in Videospielen und unterstützt sogar das Gesundheitswesen bei der Verfolgung des Genesungsfortschritts von Patienten.

Link to this sectionWie unterscheidet sie sich von anderen Computer-Vision-Aufgaben?#

Pose-Estimation unterscheidet sich von anderen Computer-Vision-Aufgaben wie Objekterkennung und Instanzsegmentierung. Diese Aufgaben konzentrieren sich hauptsächlich auf das Identifizieren und Lokalisieren von Objekten innerhalb eines Bildes.

Die Objekterkennung zeichnet beispielsweise Begrenzungsrahmen (BBox) um Elemente wie Personen, Fahrzeuge oder Tiere, um deren Anwesenheit und Position anzuzeigen. Instanzsegmentierung geht noch einen Schritt weiter, indem sie die präzise Form jedes Objekts auf Pixelebene umreißt.

Beide Methoden befassen sich jedoch hauptsächlich damit, was das Objekt ist und wo es sich befindet – sie liefern keine Informationen darüber, wie das Objekt positioniert ist oder was es möglicherweise gerade tut. Hier wird die Pose-Estimation entscheidend.

Durch die Identifizierung von Schlüsselpunkten am Körper, wie Ellbogen, Knien oder sogar einem Schwanz, kann die Pose-Estimation Körperhaltung und Bewegung interpretieren. Dies ermöglicht ein tieferes Verständnis von Aktionen, Gesten und Körperdynamiken, einschließlich Bewegungen im 3D-Raum.

Link to this sectionVerständnis der Funktionsweise der Pose-Estimation#

Pose-Estimation-Modelle folgen im Allgemeinen zwei Hauptansätzen: Bottom-Up und Top-Down. Beim Bottom-Up-Ansatz erkennt das Modell zuerst einzelne Schlüsselpunkte, wie Ellbogen, Knie oder Schultern, und gruppiert diese dann, um herauszufinden, zu welcher Person oder welchem Objekt sie gehören. Im Gegensatz dazu beginnt der Top-Down-Ansatz damit, zuerst jedes Objekt zu erkennen (z. B. eine Person im Bild) und dann die Schlüsselpunkte für dieses spezifische Objekt zu lokalisieren.

Bottom-up vs. Top-down Methoden der Pose Estimation

Abb. 2. Bottom-Up vs. Top-Down Pose-Estimation-Methoden.

Einige neuere Modelle, wie YOLO11, kombinieren die Vorteile beider Ansätze. Es behält die Effizienz der Bottom-Up-Methode bei, indem der manuelle Gruppierungsschritt übersprungen wird, während gleichzeitig die Präzision von Top-Down-Systemen genutzt wird, indem Personen erkannt und ihre Posen sofort geschätzt werden – in einem einzigen, optimierten Prozess.

Link to this sectionBenutzerdefiniertes Training von YOLO11 für Pose-Estimation#

Während wir durchgehen, wie Pose-Estimation-Modelle funktionieren, fragst du dich vielleicht: Wie lernen diese Modelle eigentlich, die Pose verschiedener Objekte zu schätzen? Hier kommt die Idee des benutzerdefinierten Trainings ins Spiel.

Benutzerdefiniertes Training bedeutet, ein Modell darauf zu trainieren, spezifische Schlüsselpunkte mit deinen eigenen Daten zu erkennen. Da das Erstellen eines Modells von Grund auf eine große Menge an beschrifteten Bildern und beträchtliche Zeit erfordert, entscheiden sich viele für Transfer Learning. Dies beinhaltet den Start mit einem Modell, das bereits auf einem großen Datensatz trainiert wurde, wie z. B. dem YOLO11 Pose-Estimation-Modell, das auf dem COCO-Pose Datensatz vortrainiert ist, und dann die Feinabstimmung mit deinen eigenen Daten für eine spezifische Aufgabe oder einen Anwendungsfall.

Nehmen wir an, du arbeitest mit Yoga-Posen – du kannst YOLO11 mit Bildern feinabstimmen, bei denen jede Pose mit Schlüsselpunkten beschriftet ist, die für diese Aktivität spezifisch sind. Um dies zu tun, benötigst du einen benutzerdefinierten Datensatz von annotierten Bildern, von denen das Modell lernen kann.

Während des Trainings kannst du Einstellungen wie Batch Size (die Anzahl der Bilder, die gleichzeitig verarbeitet werden), Learning Rate (wie schnell das Modell sein Lernen aktualisiert) und Epochen (wie oft das Modell den Datensatz durchläuft) anpassen, um die Genauigkeit zu verbessern. Dies macht es viel einfacher, Pose-Estimation-Modelle zu erstellen, die auf deine spezifischen Bedürfnisse zugeschnitten sind.

Link to this sectionReale Anwendungsbereiche der Pose-Estimation#

Nachdem wir nun besprochen haben, was Pose-Estimation ist und wie sie funktioniert, schauen wir uns einige ihrer realen Anwendungsfälle genauer an.

Link to this sectionVerwendung von Pose-Estimation für Physiotherapie#

Pose-Estimation wird allmählich zu einem zuverlässigen Werkzeug in der Gesundheitsbranche, insbesondere in der Physiotherapie. Unter Verwendung von KI und Computer Vision können diese Systeme Körperhaltung und Bewegungen in Echtzeit verfolgen und Feedback geben, ähnlich dem, was ein Physiotherapeut bieten würde.

Ein Patient, der sich von einer Knieoperation erholt, kann beispielsweise ein Pose-Estimation-System verwenden, um sicherzustellen, dass er seine Reha-Übungen korrekt ausführt. Das System kann fehlerhafte Bewegungen erkennen und Vorschläge zur Verbesserung machen, was dem Patienten hilft, auf dem richtigen Weg zu bleiben und Verletzungen zu vermeiden.

Verwendung von YOLO11 für die Physiotherapie

Abb. 3. Ein Beispiel für die Verwendung von YOLO11 für Physiotherapie.

Über die Rehabilitation hinaus findet Pose-Estimation auch Einzug in Fitness-Apps. Wer zu Hause trainiert, kann die App beispielsweise nutzen, um seine Form während der Übungen zu überprüfen. Die App kann Echtzeit-Feedback geben, z. B. den Winkel einer Kniebeuge anpassen oder sicherstellen, dass dein Rücken beim Kreuzheben gerade ist. Dies hilft Benutzern, ihre Form zu verbessern und Verletzungen vorzubeugen, ohne einen Trainer zu benötigen.

Link to this sectionMotion Capture für Unterhaltung ermöglicht durch Pose-Estimation#

Pose-Estimation hat die Art und Weise verändert, wie Motion Capture in der Unterhaltung funktioniert, was es einfacher und zugänglicher macht. In der Vergangenheit erforderte Motion Capture das Anbringen von Markern am Körper einer Person und deren Verfolgung mit speziellen Kameras, was schwierig und teuer sein konnte.

Jetzt, mit Fortschritten in KI und Computer Vision, können wir reguläre Kameras und Algorithmen verwenden, um Körperbewegungen ohne Marker zu verfolgen, was den Prozess effizienter und genauer macht, sogar in Echtzeit.

Ein großartiges Beispiel dafür ist Disney's AR (Augmented Reality) Poser. Mit diesem unterhaltsamen Tool kannst du ein Foto mit deinem Handy machen und eine digitale Figur deine Pose in Augmented Reality kopieren lassen. Es funktioniert, indem deine Pose im Bild analysiert und an eine 3D-Figur angepasst wird, was ein lustiges, personalisiertes AR-Selfie erzeugt.

Ein AR-Charakter ahmt die Pose einer Person mithilfe von Pose Estimation nach

Abb. 4. Eine AR-Figur ahmt die Pose einer Person mithilfe von Pose-Estimation nach.

Link to this sectionSozialverhaltensforschung angetrieben durch tierische Pose-Estimation#

Das Studium des Tierverhaltens hilft Wissenschaftlern zu verstehen, wie Tiere kommunizieren, Partner finden, sich um ihre Jungen kümmern und in Gruppen leben. Dieses Wissen ist entscheidend für den Schutz der Tierwelt und ein tieferes Verständnis der natürlichen Welt.

Pose-Estimation vereinfacht diesen Prozess durch das Verfolgen von Tierbewegungen und Körperhaltungen unter Verwendung von Bildern und Videos, ohne Sensoren oder Tags an den Tieren anzubringen. Diese Systeme können ihre Posen automatisch überwachen und Einblicke in Verhaltensweisen wie Pflege, Spielen oder Kämpfen liefern.

Ein interessantes Beispiel dafür ist die Verwendung von Pose-Estimation durch Wissenschaftler zur Untersuchung von Affenverhalten. Forscher haben sogar Datensätze wie OpenApePose zusammengestellt, die über 71.000 beschriftete Bilder von sechs Affenarten enthalten.

Pose Estimation bei Affen

Abb. 5. Affen-Pose-Estimation.

Link to this sectionVor- und Nachteile der Pose-Estimation#

Hier sind einige der wichtigsten Vorteile, die Pose-Estimation für verschiedene Branchen bringen kann:

  • Skalierbarkeit: Pose-Estimation-Systeme können auf einer Vielzahl von Geräten eingesetzt werden, von Smartphones bis hin zu fortschrittlichen Kamera-Setups, was sie hochgradig skalierbar und für verschiedene Anwendungsfälle und Umgebungen zugänglich macht.
  • Kosteneffizient: Da Pose-Estimation auf regulären Kameras basiert und keine teuren Sensoren oder Tags erfordert, kann es eine kosteneffizientere Lösung für die Bewegungsverfolgung in Forschungs- und kommerziellen Anwendungen sein.
  • Kontinuierliche Überwachung: Pose-Estimation-Systeme können eine kontinuierliche Echtzeit-Verfolgung bieten, was die Überwachung von Veränderungen im Laufe der Zeit ermöglicht, sei es für den Fortschritt von Patienten in der Rehabilitation oder die Verfolgung des Tierverhaltens in freier Wildbahn.

Während die Vorteile der Pose-Estimation in verschiedenen Bereichen klar sind, gibt es auch einige Herausforderungen zu berücksichtigen. Hier sind einige wichtige Einschränkungen, die du im Hinterkopf behalten solltest:

  • Begrenzte Generalisierung: Viele Modelle, die auf menschlichen Datensätzen trainiert wurden, generalisieren nicht gut auf Tiere oder ungewöhnliche Körperstrukturen ohne Nachtraining auf spezifischen Datensätzen.

  • Umweltbedingte Einschränkungen: Die Leistung kann bei schlechten Lichtverhältnissen, Bewegungsunschärfe oder unübersichtlichen Hintergründen nachlassen.

  • Hohe Empfindlichkeit gegenüber Verdeckung: Die Genauigkeit kann sinken, wenn Körperteile blockiert oder außerhalb des Bildbereichs sind, insbesondere in überfüllten Szenen oder bei der Verfolgung mehrerer Personen.

Link to this sectionWichtige Erkenntnisse#

Die Pose-Estimation hat seit ihren Anfängen einen weiten Weg zurückgelegt und sich von Systemen, die Marker verwendeten, zu wirkungsvollen Werkzeugen entwickelt, die von Deep-Learning-Modellen wie YOLO11 angetrieben werden. Ob es darum geht, die Physiotherapie zu verbessern, interaktive AR-Erlebnisse zu ermöglichen oder bei der Wildtierforschung zu helfen, die Pose-Estimation verändert die Art und Weise, wie Maschinen Bewegung und Körperhaltung verstehen. Da die Technologie weiter voranschreitet, wird die Überwindung ihrer Einschränkungen der Schlüssel dazu sein, noch mehr praktische Anwendungen zu erschließen und Maschinen besser darin zu machen, zu verstehen, wie wir und andere Lebewesen uns bewegen.

Neugierig auf KI? Erkunde unser GitHub-Repository, verbinde dich mit unserer Community und sieh dir unsere Lizenzoptionen an, um dein Computer-Vision-Projekt zu starten. Erfahre mehr über Innovationen wie KI im Einzelhandel und Computer Vision in der Logistik auf unseren Lösungsseiten.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens