Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Was ist Pose Estimation und wo kann sie eingesetzt werden?

Abirami Vina

5 Min. Lesezeit

7. Mai 2025

Erfahren Sie, wie die Posenschätzung funktioniert, wie sie in der Praxis angewendet wird und wie Modelle wie Ultralytics YOLO11 es Maschinen ermöglichen, Körperbewegungen und -haltungen zu interpretieren.

Wenn man jemanden krumm dastehen oder mit zurückgenommenen Schultern aufrecht stehen sieht, ist sofort klar, ob er eine schlechte oder selbstbewusste Haltung hat. Niemand muss es einem erklären. Das liegt daran, dass wir im Laufe der Zeit auf natürliche Weise gelernt haben, Körpersprache zu interpretieren. 

Durch Erfahrung und Beobachtung sind unsere Gehirne sehr gut darin geworden, die Haltung verschiedener Objekte, einschließlich des Menschen, zu erkennen. Dank der jüngsten Fortschritte in der künstlichen Intelligenz (KI) und Computer Vision, einem Bereich, der es Maschinen ermöglicht, visuelle Informationen aus der Welt zu interpretieren, beginnen Maschinen nun ebenfalls, diese Fähigkeit zu erlernen und zu replizieren.

Pose Estimation (Körperhaltungs- bzw. Posenschätzung) ist eine Aufgabe der Computer Vision, die Maschinen hilft, die Position und Orientierung einer Person oder eines Objekts zu bestimmen, indem sie Bilder oder Videos betrachtet. Dies geschieht durch die Identifizierung von Schlüsselpunkten am Körper, wie z. B. Gelenke und Gliedmaßen, um zu verstehen, wie sich jemand oder sogar etwas bewegt. 

Diese Technologie wird in vielen Bereichen wie Fitness, Gesundheitswesen und Animation eingesetzt. In Arbeitsumgebungen kann sie beispielsweise zur Überwachung der Körperhaltung von Mitarbeitern und zur Unterstützung von Sicherheits- und Wellness-Initiativen eingesetzt werden. Computer-Vision-Modelle wie Ultralytics YOLO11 machen dies möglich, indem sie die menschliche Haltung in Echtzeit schätzen.

Abb. 1. Ein Beispiel für die Verwendung von YOLO11 zur Überwachung der Körperhaltung von Arbeitnehmern.

In diesem Artikel werden wir uns die Pose Estimation genauer ansehen und wie sie funktioniert, zusammen mit realen Anwendungsfällen, in denen sie etwas bewirkt. Fangen wir an!

Die Entwicklung der Pose Estimation

Die Forschung zur Pose-Schätzung begann in den späten 1960er und 70er Jahren. Im Laufe der Jahre haben sich die Ansätze für diese Computer-Vision-Aufgabe von grundlegender Mathematik und Geometrie zu fortschrittlicheren Methoden entwickelt, die von künstlicher Intelligenz angetrieben werden.

Ursprünglich basierten die Techniken auf festen Kamerawinkeln und bekannten Referenzpunkten. Später wurden sie weiterentwickelt und umfassten 3D-Modelle und den Abgleich von Merkmalen. Heute können Deep-Learning-Modelle wie YOLO11 Körperpositionen in Echtzeit aus Bildern oder Videos detect , wodurch die Posenschätzung schneller und genauer als je zuvor erfolgt.

Mit der Verbesserung der Technologie erkannten die Forscher das Anwendungspotenzial, das in der Überwachung und track der Posen verschiedener Objekte, insbesondere von Menschen und Tieren, liegt. Die Posenschätzung ist besonders wichtig, weil sie es KI-Tools ermöglicht, Haltung und Bewegung auf eine Weise zu verstehen und zu messen, die vorher nicht möglich war. 

Zum Beispiel ermöglicht sie Computern, Gesten für die freihändige Interaktion zu erkennen, analysiert die Bewegungen von Sportlern, um die Leistung zu verbessern, ermöglicht realistische Animationen in Videospielen und unterstützt sogar das Gesundheitswesen, indem sie den Genesungsfortschritt von Patienten verfolgt.

Wie unterscheidet sie sich von anderen Computer-Vision-Aufgaben?

Die Pose-Schätzung unterscheidet sich von anderen Computer-Vision-Aufgaben wie der Objekterkennung und der Instanzsegmentierung. Diese Aufgaben konzentrieren sich hauptsächlich auf die Identifizierung und Lokalisierung von Objekten innerhalb eines Bildes. 

Die Objekterkennung beispielsweise zeichnet Begrenzungsrahmen um Elemente wie Personen, Fahrzeuge oder Tiere, um deren Vorhandensein und Position anzuzeigen. Die Instanzsegmentierung geht noch einen Schritt weiter, indem sie die genaue Form jedes Objekts auf Pixelebene umreißt.

Beide Methoden befassen sich jedoch hauptsächlich damit, was das Objekt ist und wo es sich befindet – sie liefern keine Informationen darüber, wie das Objekt positioniert ist oder was es tut. Hier wird die Pose-Schätzung entscheidend. 

Durch die Identifizierung von Schlüsselpunkten am Körper, wie z. B. Ellbogen, Knie oder sogar einem Schwanz, kann die Pose-Schätzung Haltung und Bewegung interpretieren. Dies ermöglicht ein tieferes Verständnis von Aktionen, Gesten und Körperdynamik, einschließlich der Bewegung im 3D-Raum.

Verständnis der Funktionsweise der Pose-Schätzung

Pose-Schätzungsmodelle folgen im Allgemeinen zwei Hauptansätzen: Bottom-up und Top-down. Beim Bottom-up-Ansatz erkennt das Modell zuerst einzelne Schlüsselpunkte, wie Ellbogen, Knie oder Schultern, und gruppiert sie dann, um herauszufinden, zu welcher Person oder welchem Objekt sie gehören. Im Gegensatz dazu beginnt der Top-down-Ansatz mit der Erkennung jedes Objekts (z. B. einer Person im Bild) und lokalisiert dann die Schlüsselpunkte für dieses spezifische Objekt.

Abb. 2. Bottom-up- vs. Top-down-Methoden zur Pose-Schätzung.

Einige neuere Modelle, wie YOLO11, vereinen die Vorteile beider Ansätze. Es behält die Effizienz der Bottom-up-Methode bei, indem es den Schritt der manuellen Gruppierung überspringt, und nutzt gleichzeitig die Präzision von Top-down-Systemen, indem es Personen auf einmal erkennt und ihre Posen schätzt - in einem einzigen, optimierten Prozess.

Benutzerdefiniertes Training YOLO11 für die Posenschätzung

Während wir die Funktionsweise von Pose-Schätzungsmodellen durchgehen, fragen Sie sich vielleicht: Wie lernen diese Modelle eigentlich, die Pose verschiedener Objekte zu schätzen? Hier kommt die Idee des benutzerdefinierten Trainings ins Spiel.

Benutzerdefiniertes Training bedeutet, einem Modell beizubringen, bestimmte Schlüsselpunkte anhand Ihrer eigenen Daten zu erkennen. Da der Aufbau eines Modells von Grund auf eine große Menge an beschrifteten Bildern und viel Zeit erfordert, entscheiden sich viele Menschen für das Transfer-Lernen. Dabei wird mit einem Modell begonnen, das bereits auf einem großen Datensatz trainiert wurde, wie z. B. das YOLO11 , das auf dem COCO vortrainiert wurde, und dieses dann mit Ihren eigenen Daten für eine bestimmte Aufgabe oder einen bestimmten Anwendungsfall fein abgestimmt.

Nehmen wir an, Sie arbeiten mit Yogastellungen - dann können Sie YOLO11 anhand von Bildern, bei denen jede Stellung mit den für diese Aktivität spezifischen Schlüsselpunkten beschriftet ist, feinabstimmen. Dazu benötigen Sie einen benutzerdefinierten Datensatz mit beschrifteten Bildern, aus denen das Modell lernen kann. 

Während des Trainings können Sie Einstellungen wie Batch-Größe (die Anzahl der gleichzeitig verarbeiteten Bilder), Lernrate (wie schnell das Modell sein Lernen aktualisiert) und Epochen (wie oft das Modell den Datensatz durchläuft) anpassen, um die Genauigkeit zu verbessern. Dies macht es viel einfacher, Pose-Schätzungsmodelle zu erstellen, die auf Ihre spezifischen Bedürfnisse zugeschnitten sind.

Anwendungen der Pose-Schätzung in der realen Welt

Nachdem wir nun besprochen haben, was Pose-Schätzung ist und wie sie funktioniert, wollen wir uns einige ihrer Anwendungsfälle in der realen Welt genauer ansehen.

Verwendung der Pose-Schätzung für die Physiotherapie 

Die Schätzung der Körperhaltung wird allmählich zu einem zuverlässigen Instrument im Gesundheitswesen, insbesondere in der Physiotherapie. Mithilfe von KI und Computer Vision können diese Systeme Haltung und Bewegungen in Echtzeit track und Feedback geben, ähnlich wie es ein Physiotherapeut anbieten würde. 

So kann beispielsweise ein Patient, der sich von einer Knieoperation erholt, ein System zur Einschätzung der Körperhaltung verwenden, um sicherzustellen, dass er seine Reha-Übungen korrekt ausführt. Das System kann falsche Bewegungen erkennen und Verbesserungsvorschläge unterbreiten, die dem Patienten helfen, auf dem track bleiben und Verletzungen zu vermeiden.

Abb. 3. Ein Beispiel für den Einsatz von YOLO11 in der Physiotherapie.

Neben der Rehabilitation hält die Pose-Schätzung auch Einzug in Fitness-Apps. Beispielsweise kann jemand, der zu Hause trainiert, die App verwenden, um seine Form während der Übungen zu überprüfen. Die App kann Echtzeit-Feedback geben, z. B. den Winkel einer Kniebeuge anpassen oder sicherstellen, dass Ihr Rücken bei einem Kreuzheben gerade ist. Dies hilft Benutzern, ihre Form zu verbessern und Verletzungen vorzubeugen, ohne dass ein Trainer erforderlich ist.

Motion Capture für Entertainment durch Pose Estimation ermöglicht

Pose Estimation hat die Funktionsweise von Motion Capture im Entertainment-Bereich verändert und vereinfacht und zugänglicher gemacht. Früher erforderte Motion Capture das Anbringen von Markern am Körper einer Person und deren Verfolgung mit speziellen Kameras, was kompliziert und teuer sein konnte. 

Dank der Fortschritte im Bereich der künstlichen Intelligenz und der Computer-Vision können wir nun normale Kameras und Algorithmen verwenden, um Körperbewegungen track , ohne dass wir Marker benötigen, was den Prozess effizienter und genauer macht, sogar in Echtzeit.

Ein gutes Beispiel dafür ist Disneys AR (Augmented Reality) Poser. Mit diesem unterhaltsamen Tool können Sie ein Foto mit Ihrem Telefon aufnehmen und eine digitale Figur Ihre Pose in Augmented Reality kopieren lassen. Es analysiert Ihre Pose auf dem Bild und gleicht sie mit einer 3D-Figur ab, wodurch ein unterhaltsames, personalisiertes AR-Selfie entsteht. 

Abb. 4. Eine AR-Figur ahmt die Pose einer Person mithilfe von Pose Estimation nach.

Sozialverhaltensforschung durch Animal Pose Estimation vorangetrieben

Das Studium des tierischen Verhaltens hilft Wissenschaftlern zu verstehen, wie Tiere kommunizieren, Partner finden, sich um ihren Nachwuchs kümmern und in Gruppen leben. Dieses Wissen ist entscheidend für den Schutz der Tierwelt und für ein tieferes Verständnis der Natur.

Pose Estimation vereinfacht diesen Prozess, indem sie Tierbewegungen und -haltungen mithilfe von Bildern und Videos verfolgt, ohne Sensoren oder Tags an den Tieren anzubringen. Diese Systeme können ihre Posen automatisch überwachen und so Einblicke in Verhaltensweisen wie Putzen, Spielen oder Kämpfen geben. 

Ein interessantes Beispiel hierfür ist die Verwendung von Posenschätzungen zur Untersuchung des Verhaltens von Affen. In der Tat haben Forscher Datensätze wie OpenApePose zusammengestellt, die über 71.000 beschriftete Bilder von sechs Affenarten enthalten. 

Abb. 5. Affen-Pose-Schätzung.

Vor- und Nachteile der Pose Estimation

Hier sind einige der wichtigsten Vorteile, die Pose Estimation für verschiedene Branchen mit sich bringen kann:

  • Skalierbarkeit: Pose-Estimation-Systeme können auf einer Vielzahl von Geräten eingesetzt werden, von Smartphones bis hin zu fortschrittlichen Kamera-Setups, was sie für verschiedene Anwendungsfälle und Umgebungen hoch skalierbar und zugänglich macht.

  • Kosteneffektiv: Da Pose Estimation auf normale Kameras angewiesen ist und keine teuren Sensoren oder Tags benötigt, kann sie eine kostengünstigere Lösung für die Bewegungsverfolgung in Forschung und kommerziellen Anwendungen sein.

  • Kontinuierliche Überwachung: Pose-Estimation-Systeme können eine kontinuierliche Echtzeit-Verfolgung ermöglichen, die die Überwachung von Veränderungen im Laufe der Zeit ermöglicht, sei es für den Patientenfortschritt in der Rehabilitation oder die Verfolgung des Tierverhaltens in freier Wildbahn.

Während die Vorteile der Pose Estimation in verschiedenen Bereichen auf der Hand liegen, gibt es auch einige Herausforderungen zu berücksichtigen. Hier sind einige wichtige Einschränkungen, die Sie beachten sollten:

  • Begrenzte Verallgemeinerung: Viele Modelle, die auf menschlichen Datensätzen trainiert wurden, lassen sich nicht gut auf Tiere oder ungewöhnliche Körperstrukturen verallgemeinern, ohne auf spezifischen Datensätzen neu trainiert zu werden.

  • Umweltbedingte Einschränkungen: Die Leistung kann sich bei schlechten Lichtverhältnissen, schneller Bewegungsunschärfe oder unübersichtlichem Hintergrund verschlechtern.
  • Hohe Empfindlichkeit gegenüber Verdeckung: Die Genauigkeit kann abnehmen, wenn Körperteile verdeckt oder außerhalb des Bildes sind, insbesondere in überfüllten Szenen oder bei der Verfolgung mehrerer Personen.

Wesentliche Erkenntnisse

Die Posenschätzung hat sich seit ihren Anfängen stark weiterentwickelt - von Systemen, die mit Markern arbeiteten, bis hin zu wirkungsvollen Tools, die auf Deep-Learning-Modellen wie YOLO11 basieren. Ob sie nun die Physiotherapie verbessert, interaktive AR-Erlebnisse ermöglicht oder bei der Erforschung von Wildtieren hilft, die Pose-Schätzung verändert die Art und Weise, wie Maschinen Bewegungen und Körperhaltung verstehen. Da die Technologie immer weiter voranschreitet, wird die Überwindung ihrer Grenzen der Schlüssel dazu sein, noch mehr praktische Anwendungen zu erschließen und Maschinen besser verstehen zu lassen, wie wir und andere Lebewesen sich bewegen.

Neugierig auf KI? Entdecken Sie unser GitHub-Repository, vernetzen Sie sich mit unserer Community und informieren Sie sich über unsere Lizenzoptionen, um Ihr Computer-Vision-Projekt zu starten. Erfahren Sie mehr über Innovationen wie KI im Einzelhandel und Computer Vision in der Logistik auf unseren Lösungsseiten.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten