Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Was ist Pose Estimation und wo kann sie eingesetzt werden?

Abirami Vina

5 Min. Lesezeit

7. Mai 2025

Erfahren Sie, wie Pose Estimation funktioniert, welche realen Anwendungen es gibt und wie Modelle wie Ultralytics YOLO11 es Maschinen ermöglichen, Körperbewegungen und -haltungen zu interpretieren.

Wenn man jemanden krumm dastehen oder mit zurückgenommenen Schultern aufrecht stehen sieht, ist sofort klar, ob er eine schlechte oder selbstbewusste Haltung hat. Niemand muss es einem erklären. Das liegt daran, dass wir im Laufe der Zeit auf natürliche Weise gelernt haben, Körpersprache zu interpretieren. 

Durch Erfahrung und Beobachtung sind unsere Gehirne sehr gut darin geworden, die Haltung verschiedener Objekte, einschließlich des Menschen, zu erkennen. Dank der jüngsten Fortschritte in der künstlichen Intelligenz (KI) und Computer Vision, einem Bereich, der es Maschinen ermöglicht, visuelle Informationen aus der Welt zu interpretieren, beginnen Maschinen nun ebenfalls, diese Fähigkeit zu erlernen und zu replizieren.

Pose Estimation (Körperhaltungs- bzw. Posenschätzung) ist eine Aufgabe der Computer Vision, die Maschinen hilft, die Position und Orientierung einer Person oder eines Objekts zu bestimmen, indem sie Bilder oder Videos betrachtet. Dies geschieht durch die Identifizierung von Schlüsselpunkten am Körper, wie z. B. Gelenke und Gliedmaßen, um zu verstehen, wie sich jemand oder sogar etwas bewegt. 

Diese Technologie wird in Bereichen wie Fitness, Gesundheitswesen und Animation breit eingesetzt. In Arbeitsplatzumgebungen kann sie beispielsweise zur Überwachung der Körperhaltung von Mitarbeitern und zur Unterstützung von Sicherheits- und Wellnessinitiativen eingesetzt werden. Computer-Vision-Modelle wie Ultralytics YOLO11 ermöglichen dies, indem sie menschliche Posen in Echtzeit schätzen.

Abb. 1. Ein Beispiel für die Verwendung von YOLO11 zur Überwachung der Körperhaltung von Arbeitern.

In diesem Artikel werden wir uns die Pose Estimation genauer ansehen und wie sie funktioniert, zusammen mit realen Anwendungsfällen, in denen sie etwas bewirkt. Fangen wir an!

Die Entwicklung der Pose Estimation

Die Forschung zur Pose-Schätzung begann in den späten 1960er und 70er Jahren. Im Laufe der Jahre haben sich die Ansätze für diese Computer-Vision-Aufgabe von grundlegender Mathematik und Geometrie zu fortschrittlicheren Methoden entwickelt, die von künstlicher Intelligenz angetrieben werden.

Anfangs waren die Techniken von festen Kamerawinkeln und bekannten Referenzpunkten abhängig. Später entwickelten sie sich weiter und umfassten 3D-Modelle und Feature Matching. Heute können Deep-Learning-Modelle wie YOLO11 Körperpositionen in Echtzeit aus Bildern oder Videos erkennen, wodurch die Pose-Schätzung schneller und genauer als je zuvor ist.

Mit der Verbesserung der Technologie erkannten die Forscher die potenziellen Anwendungen der Möglichkeit, die Posen verschiedener Objekte, insbesondere von Menschen und Tieren, zu überwachen und zu verfolgen. Die Pose-Schätzung ist besonders wichtig, da sie es KI-Tools ermöglicht, Haltung und Bewegung auf eine Weise zu verstehen und zu messen, die vorher nicht möglich war. 

Zum Beispiel ermöglicht sie Computern, Gesten für die freihändige Interaktion zu erkennen, analysiert die Bewegungen von Sportlern, um die Leistung zu verbessern, ermöglicht realistische Animationen in Videospielen und unterstützt sogar das Gesundheitswesen, indem sie den Genesungsfortschritt von Patienten verfolgt.

Wie unterscheidet sie sich von anderen Computer-Vision-Aufgaben?

Die Pose-Schätzung unterscheidet sich von anderen Computer-Vision-Aufgaben wie der Objekterkennung und der Instanzsegmentierung. Diese Aufgaben konzentrieren sich hauptsächlich auf die Identifizierung und Lokalisierung von Objekten innerhalb eines Bildes. 

Die Objekterkennung beispielsweise zeichnet Begrenzungsrahmen um Elemente wie Personen, Fahrzeuge oder Tiere, um deren Vorhandensein und Position anzuzeigen. Die Instanzsegmentierung geht noch einen Schritt weiter, indem sie die genaue Form jedes Objekts auf Pixelebene umreißt.

Beide Methoden befassen sich jedoch hauptsächlich damit, was das Objekt ist und wo es sich befindet – sie liefern keine Informationen darüber, wie das Objekt positioniert ist oder was es tut. Hier wird die Pose-Schätzung entscheidend. 

Durch die Identifizierung von Schlüsselpunkten am Körper, wie z. B. Ellbogen, Knie oder sogar einem Schwanz, kann die Pose-Schätzung Haltung und Bewegung interpretieren. Dies ermöglicht ein tieferes Verständnis von Aktionen, Gesten und Körperdynamik, einschließlich der Bewegung im 3D-Raum.

Verständnis der Funktionsweise der Pose-Schätzung

Pose-Schätzungsmodelle folgen im Allgemeinen zwei Hauptansätzen: Bottom-up und Top-down. Beim Bottom-up-Ansatz erkennt das Modell zuerst einzelne Schlüsselpunkte, wie Ellbogen, Knie oder Schultern, und gruppiert sie dann, um herauszufinden, zu welcher Person oder welchem Objekt sie gehören. Im Gegensatz dazu beginnt der Top-down-Ansatz mit der Erkennung jedes Objekts (z. B. einer Person im Bild) und lokalisiert dann die Schlüsselpunkte für dieses spezifische Objekt.

Abb. 2. Bottom-up- vs. Top-down-Methoden zur Pose-Schätzung.

Einige neuere Modelle, wie z. B. YOLO11, vereinen die Vorteile beider Ansätze. Es behält die Effizienz der Bottom-up-Methode bei, indem es den manuellen Gruppierungsschritt überspringt, und nutzt gleichzeitig die Präzision von Top-down-Systemen, indem es Personen erkennt und ihre Posen gleichzeitig schätzt – in einem einzigen, optimierten Prozess.

Benutzerdefiniertes Training von YOLO11 für die Pose-Schätzung

Während wir die Funktionsweise von Pose-Schätzungsmodellen durchgehen, fragen Sie sich vielleicht: Wie lernen diese Modelle eigentlich, die Pose verschiedener Objekte zu schätzen? Hier kommt die Idee des benutzerdefinierten Trainings ins Spiel.

Benutzerdefiniertes Training bedeutet, einem Modell beizubringen, bestimmte Schlüsselpunkte anhand Ihrer eigenen Daten zu erkennen. Da der Aufbau eines Modells von Grund auf eine große Anzahl von beschrifteten Bildern und viel Zeit erfordert, entscheiden sich viele Leute für das Transferlernen. Dabei wird mit einem Modell begonnen, das bereits mit einem großen Datensatz trainiert wurde, wie z. B. dem YOLO11-Pose-Schätzungsmodell, das auf dem COCO-Pose-Datensatz vortrainiert ist, und es dann mit Ihren eigenen Daten für eine bestimmte Aufgabe oder einen bestimmten Anwendungsfall feinabgestimmt.

Nehmen wir an, Sie arbeiten mit Yoga-Posen – Sie können YOLO11 mithilfe von Bildern feinabstimmen, bei denen jede Pose mit Schlüsselpunkten beschriftet ist, die für diese Aktivität spezifisch sind. Dazu benötigen Sie einen benutzerdefinierten Datensatz mit annotierten Bildern, aus denen das Modell lernen kann. 

Während des Trainings können Sie Einstellungen wie Batch-Größe (die Anzahl der gleichzeitig verarbeiteten Bilder), Lernrate (wie schnell das Modell sein Lernen aktualisiert) und Epochen (wie oft das Modell den Datensatz durchläuft) anpassen, um die Genauigkeit zu verbessern. Dies macht es viel einfacher, Pose-Schätzungsmodelle zu erstellen, die auf Ihre spezifischen Bedürfnisse zugeschnitten sind.

Anwendungen der Pose-Schätzung in der realen Welt

Nachdem wir nun besprochen haben, was Pose-Schätzung ist und wie sie funktioniert, wollen wir uns einige ihrer Anwendungsfälle in der realen Welt genauer ansehen.

Verwendung der Pose-Schätzung für die Physiotherapie 

Die Pose-Schätzung entwickelt sich allmählich zu einem zuverlässigen Werkzeug im Gesundheitswesen, insbesondere in der Physiotherapie. Mithilfe von KI und Computer Vision können diese Systeme Haltung und Bewegungen in Echtzeit verfolgen und Feedback geben, ähnlich wie es ein Physiotherapeut tun würde. 

Beispielsweise kann ein Patient, der sich von einer Knieoperation erholt, ein Pose-Schätzungssystem verwenden, um sicherzustellen, dass er seine Reha-Übungen korrekt ausführt. Das System kann fehlerhafte Bewegungen erkennen und Verbesserungsvorschläge anbieten, sodass der Patient auf dem richtigen Weg bleibt und Verletzungen vermieden werden.

Abb. 3. Ein Beispiel für die Verwendung von YOLO11 für die Physiotherapie.

Neben der Rehabilitation hält die Pose-Schätzung auch Einzug in Fitness-Apps. Beispielsweise kann jemand, der zu Hause trainiert, die App verwenden, um seine Form während der Übungen zu überprüfen. Die App kann Echtzeit-Feedback geben, z. B. den Winkel einer Kniebeuge anpassen oder sicherstellen, dass Ihr Rücken bei einem Kreuzheben gerade ist. Dies hilft Benutzern, ihre Form zu verbessern und Verletzungen vorzubeugen, ohne dass ein Trainer erforderlich ist.

Motion Capture für Entertainment durch Pose Estimation ermöglicht

Pose Estimation hat die Funktionsweise von Motion Capture im Entertainment-Bereich verändert und vereinfacht und zugänglicher gemacht. Früher erforderte Motion Capture das Anbringen von Markern am Körper einer Person und deren Verfolgung mit speziellen Kameras, was kompliziert und teuer sein konnte. 

Mit den Fortschritten in den Bereichen KI und Computer Vision können wir jetzt normale Kameras und Algorithmen verwenden, um Körperbewegungen ohne Marker zu verfolgen. Dies macht den Prozess effizienter und genauer, sogar in Echtzeit.

Ein gutes Beispiel dafür ist Disneys AR (Augmented Reality) Poser. Mit diesem unterhaltsamen Tool können Sie ein Foto mit Ihrem Telefon aufnehmen und eine digitale Figur Ihre Pose in Augmented Reality kopieren lassen. Es analysiert Ihre Pose auf dem Bild und gleicht sie mit einer 3D-Figur ab, wodurch ein unterhaltsames, personalisiertes AR-Selfie entsteht. 

Abb. 4. Eine AR-Figur ahmt die Pose einer Person mithilfe von Pose Estimation nach.

Sozialverhaltensforschung durch Animal Pose Estimation vorangetrieben

Das Studium des tierischen Verhaltens hilft Wissenschaftlern zu verstehen, wie Tiere kommunizieren, Partner finden, sich um ihren Nachwuchs kümmern und in Gruppen leben. Dieses Wissen ist entscheidend für den Schutz der Tierwelt und für ein tieferes Verständnis der Natur.

Pose Estimation vereinfacht diesen Prozess, indem sie Tierbewegungen und -haltungen mithilfe von Bildern und Videos verfolgt, ohne Sensoren oder Tags an den Tieren anzubringen. Diese Systeme können ihre Posen automatisch überwachen und so Einblicke in Verhaltensweisen wie Putzen, Spielen oder Kämpfen geben. 

Ein interessantes Beispiel hierfür ist die Verwendung von Posenschätzungen zur Untersuchung des Verhaltens von Affen. In der Tat haben Forscher Datensätze wie OpenApePose zusammengestellt, die über 71.000 beschriftete Bilder von sechs Affenarten enthalten. 

Abb. 5. Affen-Pose-Schätzung.

Vor- und Nachteile der Pose Estimation

Hier sind einige der wichtigsten Vorteile, die Pose Estimation für verschiedene Branchen mit sich bringen kann:

  • Skalierbarkeit: Pose-Estimation-Systeme können auf einer Vielzahl von Geräten eingesetzt werden, von Smartphones bis hin zu fortschrittlichen Kamera-Setups, was sie für verschiedene Anwendungsfälle und Umgebungen hoch skalierbar und zugänglich macht.

  • Kosteneffektiv: Da Pose Estimation auf normale Kameras angewiesen ist und keine teuren Sensoren oder Tags benötigt, kann sie eine kostengünstigere Lösung für die Bewegungsverfolgung in Forschung und kommerziellen Anwendungen sein.

  • Kontinuierliche Überwachung: Pose-Estimation-Systeme können eine kontinuierliche Echtzeit-Verfolgung ermöglichen, die die Überwachung von Veränderungen im Laufe der Zeit ermöglicht, sei es für den Patientenfortschritt in der Rehabilitation oder die Verfolgung des Tierverhaltens in freier Wildbahn.

Während die Vorteile der Pose Estimation in verschiedenen Bereichen auf der Hand liegen, gibt es auch einige Herausforderungen zu berücksichtigen. Hier sind einige wichtige Einschränkungen, die Sie beachten sollten:

  • Begrenzte Verallgemeinerung: Viele Modelle, die auf menschlichen Datensätzen trainiert wurden, lassen sich nicht gut auf Tiere oder ungewöhnliche Körperstrukturen verallgemeinern, ohne auf spezifischen Datensätzen neu trainiert zu werden.

  • Umweltbedingte Einschränkungen: Die Leistung kann sich bei schlechten Lichtverhältnissen, schneller Bewegungsunschärfe oder unübersichtlichem Hintergrund verschlechtern.
  • Hohe Empfindlichkeit gegenüber Verdeckung: Die Genauigkeit kann abnehmen, wenn Körperteile verdeckt oder außerhalb des Bildes sind, insbesondere in überfüllten Szenen oder bei der Verfolgung mehrerer Personen.

Wesentliche Erkenntnisse

Pose Estimation hat seit ihren Anfängen einen langen Weg zurückgelegt und sich von Systemen, die mit Markern arbeiteten, zu wirkungsvollen Werkzeugen entwickelt, die von Deep-Learning-Modellen wie YOLO11 angetrieben werden. Ob es sich um die Verbesserung der Physiotherapie, die Unterstützung interaktiver AR-Erlebnisse oder die Hilfe bei der Wildtierforschung handelt, Pose Estimation verändert die Art und Weise, wie Maschinen Bewegung und Körperhaltung verstehen. Da die Technologie immer weiter fortschreitet, wird die Behebung ihrer Einschränkungen der Schlüssel sein, um noch mehr praktische Anwendungen zu erschließen und Maschinen besser darin zu machen, zu verstehen, wie wir und andere Lebewesen uns bewegen.

Neugierig auf KI? Entdecken Sie unser GitHub-Repository, vernetzen Sie sich mit unserer Community und informieren Sie sich über unsere Lizenzoptionen, um Ihr Computer-Vision-Projekt zu starten. Erfahren Sie mehr über Innovationen wie KI im Einzelhandel und Computer Vision in der Logistik auf unseren Lösungsseiten.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert