Grüner Scheck
Link in die Zwischenablage kopiert

Was ist Pose Estimation und wo kann sie eingesetzt werden?

Erfahre, wie die Posenschätzung funktioniert, wie sie in der Praxis angewendet wird und wie Modelle wie Ultralytics YOLO11 es Maschinen ermöglichen, Körperbewegungen und -haltung zu interpretieren.

Wenn du jemanden siehst, der mit hängenden Schultern oder aufrecht mit zurückgenommenen Schultern dasteht, ist sofort klar, ob er oder sie eine schlechte oder selbstbewusste Körperhaltung hat. Das muss dir niemand erklären. Das liegt daran, dass wir im Laufe der Zeit auf natürliche Weise gelernt haben, die Körpersprache zu deuten. 

Durch Erfahrung und Beobachtung ist unser Gehirn sehr gut darin geworden, die Körperhaltung verschiedener Objekte, einschließlich Menschen, zu erkennen. Dank der jüngsten Fortschritte in den Bereichen künstliche Intelligenz (KI) und Computer Vision, einem Bereich, in dem Maschinen visuelle Informationen aus der Welt interpretieren können, beginnen nun auch Maschinen, diese Fähigkeit zu erlernen und zu reproduzieren.

Posenschätzung ist eine Aufgabe der Computer Vision, die Maschinen dabei hilft, die Position und Ausrichtung einer Person oder eines Objekts anhand von Bildern oder Videos zu bestimmen. Dazu werden Schlüsselpunkte am Körper, wie Gelenke und Gliedmaßen, identifiziert, um zu verstehen, wie sich eine Person oder ein Objekt bewegt. 

Diese Technologie wird in vielen Bereichen wie Fitness, Gesundheit und Animation eingesetzt. Am Arbeitsplatz kann sie zum Beispiel eingesetzt werden, um die Körperhaltung der Beschäftigten zu überwachen und Sicherheits- und Wellness-Initiativen zu unterstützen. Computer Vision Modelle wie Ultralytics YOLO11 machen dies möglich, indem sie die menschliche Haltung in Echtzeit einschätzen.

Abb. 1. Ein Beispiel für die Verwendung von YOLO11 zur Überwachung der Körperhaltung von Arbeitnehmern.

In diesem Artikel werfen wir einen genaueren Blick auf die Posenschätzung und ihre Funktionsweise sowie auf reale Anwendungsfälle, in denen sie einen Unterschied macht. Los geht's!

Die Entwicklung der Posenschätzung

Die Forschung auf dem Gebiet der Posenschätzung begann bereits in den späten 1960er und 70er Jahren. Im Laufe der Jahre hat sich die Herangehensweise an diese Bildverarbeitungsaufgabe von den mathematischen und geometrischen Grundlagen zu fortschrittlicheren Methoden entwickelt, die auf künstlicher Intelligenz basieren.

Ursprünglich basierten die Techniken auf festen Kamerawinkeln und bekannten Referenzpunkten. Später wurden 3D-Modelle und der Abgleich von Merkmalen hinzugezogen. Heute können Deep-Learning-Modelle wie YOLO11 Körperpositionen in Echtzeit aus Bildern oder Videos erkennen, wodurch die Posenschätzung schneller und genauer wird als je zuvor.

Als sich die Technologie verbesserte, erkannten die Forscher das Potenzial der Überwachung und Verfolgung der Posen verschiedener Objekte, insbesondere von Menschen und Tieren. Die Posenschätzung ist besonders wichtig, weil sie es KI-Tools ermöglicht, Haltung und Bewegung auf eine Weise zu verstehen und zu messen, die vorher nicht möglich war. 

So können Computer zum Beispiel Gesten erkennen, um freihändig zu interagieren, die Bewegungen von Sportlern analysieren, um die Leistung zu verbessern, realistische Animationen in Videospielen erzeugen und sogar das Gesundheitswesen unterstützen, indem sie den Genesungsprozess von Patienten verfolgen.

Wie unterscheidet sie sich von anderen Computer Vision Aufgaben?

Die Pose-Schätzung unterscheidet sich von anderen Computer-Vision-Aufgaben wie Objekterkennung und Instanzsegmentierung. Diese Aufgaben konzentrieren sich in erster Linie auf die Identifizierung und Lokalisierung von Objekten in einem Bild. 

Bei der Objekterkennung werden z. B. Bounding Boxes um Objekte wie Personen, Fahrzeuge oder Tiere gezogen, um deren Anwesenheit und Position anzuzeigen. Die Instanzensegmentierung geht noch einen Schritt weiter, indem sie die genaue Form jedes Objekts auf Pixelebene festlegt.

Diese beiden Methoden befassen sich jedoch hauptsächlich damit, was das Objekt ist und wo es sich befindet - sie geben keine Auskunft darüber, wie das Objekt positioniert ist oder was es tun könnte. Hier kommt die Posenschätzung ins Spiel. 

Durch die Identifizierung von Schlüsselpunkten am Körper, wie z. B. Ellbogen, Knien oder sogar einem Schwanz, kann die Posenschätzung Haltung und Bewegung interpretieren. Dies ermöglicht ein tieferes Verständnis von Aktionen, Gesten und Körperdynamik, einschließlich der Bewegung im 3D-Raum.

Verstehen, wie die Posenschätzung funktioniert

Modelle zur Schätzung der Körperhaltung verfolgen in der Regel zwei Hauptansätze: Bottom-up und Top-down. Beim Bottom-up-Ansatz erkennt das Modell zunächst einzelne Schlüsselpunkte wie Ellbogen, Knie oder Schultern und gruppiert sie dann, um herauszufinden, zu welcher Person oder welchem Objekt sie gehören. Im Gegensatz dazu werden beim Top-Down-Ansatz zunächst die einzelnen Objekte erkannt (z. B. eine Person im Bild) und dann die Schlüsselpunkte für dieses spezielle Objekt ermittelt.

Abb. 2. Bottom-up- vs. Top-down-Methoden zur Schätzung der Körperhaltung.

Einige neuere Modelle, wie YOLO11, vereinen die Vorteile beider Ansätze. Es behält die Effizienz der Bottom-up-Methode bei, indem es den Schritt der manuellen Gruppierung überspringt, und nutzt gleichzeitig die Präzision von Top-down-Systemen, indem es Personen auf einmal erkennt und ihre Posen schätzt - in einem einzigen, optimierten Prozess.

Benutzerdefiniertes Training YOLO11 für die Posenschätzung

Während wir uns ansehen, wie Modelle zur Posenschätzung funktionieren, fragst du dich vielleicht: Wie lernen diese Modelle eigentlich, die Pose verschiedener Objekte zu schätzen? An dieser Stelle kommt die Idee des individuellen Trainings ins Spiel.

Benutzerdefiniertes Training bedeutet, dass du einem Modell beibringst, bestimmte Schlüsselpunkte anhand deiner eigenen Daten zu erkennen. Da der Aufbau eines Modells von Grund auf eine große Menge an beschrifteten Bildern und viel Zeit erfordert, entscheiden sich viele Menschen für das Transferlernen. Dabei wird mit einem Modell begonnen, das bereits auf einem großen Datensatz trainiert wurde, wie z. B. das YOLO11 Posenschätzungsmodell, das auf dem COCO-Pose-Datensatz trainiert wurde, und es dann mit deinen eigenen Daten für eine bestimmte Aufgabe oder einen bestimmten Anwendungsfall feinabgestimmt.

Angenommen, du arbeitest mit Yogastellungen - dann kannst du YOLO11 anhand von Bildern optimieren, bei denen jede Stellung mit den für diese Aktivität spezifischen Schlüsselpunkten beschriftet ist. Dafür brauchst du einen benutzerdefinierten Datensatz mit beschrifteten Bildern, aus denen das Modell lernen kann. 

Während des Trainings kannst du Einstellungen wie die Stapelgröße (die Anzahl der Bilder, die auf einmal verarbeitet werden), die Lernrate (wie schnell das Modell seinen Lernprozess aktualisiert) und die Epochen (wie oft das Modell den Datensatz durchläuft) anpassen, um die Genauigkeit zu verbessern. Das macht es viel einfacher, Posenschätzungsmodelle zu erstellen, die auf deine speziellen Bedürfnisse zugeschnitten sind.

Praktische Anwendungen der Posenschätzung

Nachdem wir nun erklärt haben, was Posenschätzung ist und wie sie funktioniert, wollen wir uns einige Anwendungsfälle aus der Praxis genauer ansehen.

Posenschätzung für die Physiotherapie nutzen 

Die Schätzung der Körperhaltung wird allmählich zu einem zuverlässigen Instrument im Gesundheitswesen, insbesondere in der Physiotherapie. Mithilfe von KI und Computer Vision können diese Systeme Haltung und Bewegungen in Echtzeit verfolgen und Feedback geben, ähnlich wie es ein Physiotherapeut tun würde. 

Zum Beispiel kann ein Patient, der sich von einer Knieoperation erholt, ein System zur Einschätzung der Körperhaltung verwenden, um sicherzustellen, dass er seine Reha-Übungen richtig ausführt. Das System kann falsche Bewegungen erkennen und Verbesserungsvorschläge machen, die dem Patienten helfen, auf dem richtigen Weg zu bleiben und Verletzungen zu vermeiden.

Abb. 3. Ein Beispiel für den Einsatz von YOLO11 in der Physiotherapie.

Neben der Rehabilitation findet die Einschätzung der Körperhaltung auch in Fitness-Apps ihren Weg. Wenn du zum Beispiel zu Hause trainierst, kannst du mit der App deine Form während der Übungen überprüfen. Die App kann in Echtzeit Feedback geben, z. B. den Winkel einer Kniebeuge anpassen oder sicherstellen, dass der Rücken beim Kreuzheben gerade ist. So können die Nutzer ihre Form verbessern und Verletzungen vorbeugen, ohne einen Trainer zu benötigen.

Bewegungserfassung für die Unterhaltung durch Posenschätzung

Pose Estimation hat die Art und Weise, wie Motion Capture in der Unterhaltungsbranche funktioniert, verändert und sie einfacher und zugänglicher gemacht. In der Vergangenheit mussten für die Bewegungserfassung Markierungen am Körper einer Person angebracht und mit speziellen Kameras verfolgt werden, was schwierig und teuer sein konnte. 

Dank der Fortschritte in den Bereichen KI und Computer Vision können wir jetzt normale Kameras und Algorithmen verwenden, um Körperbewegungen zu verfolgen, ohne Markierungen zu benötigen.

Ein tolles Beispiel dafür ist Disneys AR (Augmented Reality) Poser. Mit diesem lustigen Tool kannst du ein Foto mit deinem Handy machen und eine digitale Figur deine Pose in der erweiterten Realität kopieren lassen. Dazu wird deine Pose auf dem Foto analysiert und mit einer 3D-Figur abgeglichen, sodass ein lustiges, personalisiertes AR-Selfie entsteht. 

Abb. 4. Eine AR-Figur ahmt die Pose einer Person mithilfe von Posenschätzungen nach.

Soziale Verhaltensforschung durch Schätzung der Tierhaltung

Das Studium des Tierverhaltens hilft Wissenschaftlern zu verstehen, wie Tiere kommunizieren, sich paaren, ihre Jungen versorgen und in Gruppen leben. Dieses Wissen ist wichtig, um Wildtiere zu schützen und ein tieferes Verständnis für die Natur zu erlangen.

Die Posenschätzung vereinfacht diesen Prozess, indem sie die Bewegungen und die Körperhaltung der Tiere anhand von Bildern und Videos verfolgt, ohne dass Sensoren oder Markierungen an den Tieren angebracht werden müssen. Diese Systeme können die Haltung der Tiere automatisch überwachen und geben so Aufschluss über Verhaltensweisen wie Putzen, Spielen oder Kämpfen. 

Ein interessantes Beispiel dafür ist die Verwendung von Posenschätzungen zur Untersuchung des Verhaltens von Affen. Forscher haben Datensätze wie OpenApePose zusammengestellt, die über 71.000 beschriftete Bilder von sechs Affenarten enthalten. 

Abb. 5. Schätzung der Affenhaltung.

Vor- und Nachteile der Pose-Schätzung

Hier sind einige der wichtigsten Vorteile, die Posenschätzungen für verschiedene Branchen bringen können:

  • Skalierbarkeit: Systeme zur Posenschätzung können auf einer Vielzahl von Geräten eingesetzt werden, von Smartphones bis hin zu hochentwickelten Kamerasystemen, was sie hoch skalierbar und für verschiedene Anwendungsfälle und Umgebungen zugänglich macht.

  • Kostengünstig: Da die Posenschätzung auf normalen Kameras basiert und keine teuren Sensoren oder Tags benötigt, kann sie eine kostengünstige Lösung für die Verfolgung von Bewegungen sowohl in der Forschung als auch in kommerziellen Anwendungen sein.

  • Kontinuierliche Überwachung: Systeme zur Posenschätzung können eine kontinuierliche Verfolgung in Echtzeit ermöglichen, so dass Veränderungen im Laufe der Zeit beobachtet werden können, sei es bei der Rehabilitation von Patienten oder bei der Beobachtung des Verhaltens von Tieren in freier Wildbahn.

Die Vorteile der Posenschätzung liegen in verschiedenen Bereichen klar auf der Hand, aber es gibt auch einige Herausforderungen zu beachten. Hier sind ein paar wichtige Einschränkungen, die du beachten solltest:

  • Begrenzte Generalisierung: Viele Modelle, die auf menschlichen Datensätzen trainiert wurden, lassen sich nicht gut auf Tiere oder ungewöhnliche Körperstrukturen verallgemeinern, ohne dass sie auf speziellen Datensätzen neu trainiert werden müssen.

  • Umweltbedingte Einschränkungen: Bei schlechter Beleuchtung, schneller Bewegungsunschärfe oder unübersichtlichen Hintergründen kann die Leistung nachlassen.
  • Hohe Empfindlichkeit gegenüber Verdeckungen: Die Genauigkeit kann sinken, wenn Körperteile verdeckt sind oder sich außerhalb des Bildes befinden, vor allem in überfüllten Szenen oder bei der Verfolgung mehrerer Personen.

Die wichtigsten Erkenntnisse

Die Posenschätzung hat sich seit ihren Anfängen stark weiterentwickelt. Von Systemen, die mit Markern arbeiteten, bis hin zu wirkungsvollen Tools, die auf Deep-Learning-Modellen wie YOLO11 basieren. Ob sie nun die Physiotherapie verbessert, interaktive AR-Erlebnisse ermöglicht oder bei der Erforschung von Wildtieren hilft, Pose Estimation verändert die Art und Weise, wie Maschinen Bewegungen und Körperhaltung verstehen. Da die Technologie immer weiter voranschreitet, wird es entscheidend sein, ihre Grenzen zu überwinden, um noch mehr praktische Anwendungen zu erschließen und Maschinen besser verstehen zu lassen, wie wir und andere Lebewesen sich bewegen.

Neugierig auf KI? Erkunde unser GitHub-Repository, tausche dich mit unserer Community aus und sieh dir unsere Lizenzierungsoptionen an, um dein Computer-Vision-Projekt zu starten. Erfahre mehr über Innovationen wie KI im Einzelhandel und Computer Vision in der Logistikbranche auf unseren Lösungsseiten.

LinkedIn-LogoTwitter-LogoFacebook-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens