Erfahren Sie, wie die Posenschätzung funktioniert, wie sie in der Praxis angewendet wird und wie Modelle wie Ultralytics YOLO11 es Maschinen ermöglichen, Körperbewegungen und -haltungen zu interpretieren.

Erfahren Sie, wie die Posenschätzung funktioniert, wie sie in der Praxis angewendet wird und wie Modelle wie Ultralytics YOLO11 es Maschinen ermöglichen, Körperbewegungen und -haltungen zu interpretieren.
Wenn Sie jemanden sehen, der mit hängenden Schultern oder aufrecht mit zurückgenommenen Schultern dasteht, wissen Sie sofort, ob er eine schlechte oder eine selbstbewusste Körperhaltung hat. Das muss man Ihnen nicht erklären. Das liegt daran, dass wir im Laufe der Zeit auf natürliche Weise gelernt haben, die Körpersprache zu deuten.
Durch Erfahrung und Beobachtung sind unsere Gehirne sehr gut darin geworden, die Körperhaltung verschiedener Objekte, einschließlich Menschen, zu erkennen. Dank der jüngsten Fortschritte im Bereich der künstlichen Intelligenz (KI) und der Computer Vision, einem Bereich, der es Maschinen ermöglicht, visuelle Informationen aus der Welt zu interpretieren, beginnen nun auch Maschinen, diese Fähigkeit zu erlernen und zu reproduzieren.
Die Posenschätzung ist eine Aufgabe der Computer Vision, die Maschinen dabei hilft, die Position und Ausrichtung einer Person oder eines Objekts anhand von Bildern oder Videos zu bestimmen. Dazu werden Schlüsselpunkte am Körper, wie Gelenke und Gliedmaßen, identifiziert, um zu verstehen, wie sich eine Person oder sogar ein Objekt bewegt.
Diese Technologie wird in vielen Bereichen wie Fitness, Gesundheitswesen und Animation eingesetzt. In Arbeitsumgebungen kann sie beispielsweise zur Überwachung der Körperhaltung von Mitarbeitern und zur Unterstützung von Sicherheits- und Wellness-Initiativen eingesetzt werden. Computer-Vision-Modelle wie Ultralytics YOLO11 machen dies möglich, indem sie die menschliche Haltung in Echtzeit schätzen.
In diesem Artikel werfen wir einen genaueren Blick auf die Posenschätzung und ihre Funktionsweise, zusammen mit realen Anwendungsfällen, in denen sie einen Unterschied macht. Legen wir los!
Die Forschung auf dem Gebiet der Posenschätzung begann bereits in den späten 1960er und 70er Jahren. Im Laufe der Jahre hat sich die Herangehensweise an diese Bildverarbeitungsaufgabe von den mathematischen und geometrischen Grundlagen hin zu fortschrittlicheren, auf künstlicher Intelligenz basierenden Methoden entwickelt.
Ursprünglich basierten die Techniken auf festen Kamerawinkeln und bekannten Referenzpunkten. Später wurden sie weiterentwickelt und umfassten 3D-Modelle und den Abgleich von Merkmalen. Heute können Deep-Learning-Modelle wie YOLO11 Körperpositionen in Echtzeit aus Bildern oder Videos erkennen, wodurch die Posenschätzung schneller und genauer als je zuvor erfolgt.
Mit der Verbesserung der Technologie erkannten die Forscher das Anwendungspotenzial, das in der Überwachung und Verfolgung der Posen verschiedener Objekte, insbesondere von Menschen und Tieren, liegt. Die Posenschätzung ist besonders wichtig, weil sie es KI-Tools ermöglicht, Haltung und Bewegung auf eine Weise zu verstehen und zu messen, die vorher nicht möglich war.
So können Computer beispielsweise Gesten erkennen, um freihändig zu interagieren, die Bewegungen von Sportlern analysieren, um ihre Leistung zu verbessern, realistische Animationen in Videospielen erzeugen und sogar das Gesundheitswesen unterstützen, indem sie den Genesungsprozess von Patienten verfolgen.
Die Schätzung der Körperhaltung unterscheidet sich von anderen Bildverarbeitungsaufgaben wie der Objekterkennung und der Segmentierung von Instanzen. Diese Aufgaben konzentrieren sich in erster Linie auf die Identifizierung und Lokalisierung von Objekten innerhalb eines Bildes.
Bei der Objekterkennung werden beispielsweise Begrenzungsrahmen um Objekte wie Personen, Fahrzeuge oder Tiere gezeichnet, um deren Vorhandensein und Position anzuzeigen. Die Instanzsegmentierung geht noch einen Schritt weiter, indem sie die genaue Form jedes Objekts auf Pixelebene festlegt.
Diese beiden Methoden befassen sich jedoch hauptsächlich damit, was das Objekt ist und wo es sich befindet - sie liefern keine Informationen darüber, wie das Objekt positioniert ist oder was es tun könnte. An dieser Stelle wird die Posenschätzung entscheidend.
Durch die Identifizierung von Schlüsselpunkten am Körper, wie z. B. Ellbogen, Knien oder sogar einem Schwanz, kann die Posenschätzung Körperhaltung und Bewegung interpretieren. Dies ermöglicht ein tieferes Verständnis von Aktionen, Gesten und Körperdynamik, einschließlich der Bewegung im 3D-Raum.
Modelle zur Schätzung der Körperhaltung folgen im Allgemeinen zwei Hauptansätzen: Bottom-up und Top-down. Beim Bottom-up-Ansatz erkennt das Modell zunächst einzelne Schlüsselpunkte, wie Ellbogen, Knie oder Schultern, und gruppiert sie dann, um herauszufinden, zu welcher Person oder welchem Objekt sie gehören. Im Gegensatz dazu wird beim Top-Down-Ansatz zunächst jedes Objekt erkannt (z. B. eine Person im Bild), und dann werden die Schlüsselpunkte für dieses spezifische Objekt lokalisiert.
Einige neuere Modelle, wie YOLO11, vereinen die Vorteile beider Ansätze. Es behält die Effizienz der Bottom-up-Methode bei, indem es den Schritt der manuellen Gruppierung überspringt, während es gleichzeitig die Präzision von Top-down-Systemen nutzt, indem es Personen erkennt und ihre Posen auf einmal schätzt - in einem einzigen, rationalisierten Prozess.
Während wir die Funktionsweise von Modellen zur Posenschätzung erläutern, fragen Sie sich vielleicht: Wie lernen diese Modelle eigentlich, die Pose verschiedener Objekte zu schätzen? An dieser Stelle kommt die Idee des benutzerdefinierten Trainings ins Spiel.
Benutzerdefiniertes Training bedeutet, einem Modell beizubringen, bestimmte Schlüsselpunkte anhand Ihrer eigenen Daten zu erkennen. Da der Aufbau eines Modells von Grund auf eine große Menge an beschrifteten Bildern und viel Zeit erfordert, entscheiden sich viele Menschen für das Transfer-Lernen. Dabei wird mit einem Modell begonnen, das bereits auf einem großen Datensatz trainiert wurde, wie z. B. das YOLO11-Positionsschätzungsmodell, das auf dem COCO-Pose-Datensatz vortrainiert wurde, und dieses dann mit Ihren eigenen Daten für eine bestimmte Aufgabe oder einen bestimmten Anwendungsfall fein abgestimmt.
Nehmen wir an, Sie arbeiten mit Yogastellungen - dann können Sie YOLO11 anhand von Bildern, bei denen jede Stellung mit den für diese Aktivität spezifischen Schlüsselpunkten beschriftet ist, feinabstimmen. Dazu benötigen Sie einen benutzerdefinierten Datensatz mit beschrifteten Bildern, aus denen das Modell lernen kann.
Während des Trainings können Sie Einstellungen wie die Stapelgröße (die Anzahl der auf einmal verarbeiteten Bilder), die Lernrate (wie schnell das Modell seinen Lernprozess aktualisiert) und die Epochen (wie oft das Modell den Datensatz durchläuft) anpassen, um die Genauigkeit zu verbessern. Dies macht es viel einfacher, Modelle zur Posenschätzung zu erstellen, die auf Ihre speziellen Bedürfnisse zugeschnitten sind.
Nachdem wir nun erörtert haben, was Pose Estimation ist und wie sie funktioniert, wollen wir uns nun einige Anwendungsfälle aus der Praxis genauer ansehen.
Die Schätzung der Körperhaltung entwickelt sich allmählich zu einem zuverlässigen Instrument in der Gesundheitsbranche, insbesondere in der Physiotherapie. Mithilfe von KI und Computer Vision können diese Systeme Haltung und Bewegungen in Echtzeit verfolgen und Feedback geben, ähnlich wie es ein Physiotherapeut anbieten würde.
So kann beispielsweise ein Patient, der sich von einer Knieoperation erholt, ein System zur Einschätzung der Körperhaltung verwenden, um sicherzustellen, dass er seine Reha-Übungen korrekt ausführt. Das System kann falsche Bewegungen erkennen und Verbesserungsvorschläge unterbreiten, die dem Patienten helfen, auf dem richtigen Weg zu bleiben und Verletzungen zu vermeiden.
Über die Rehabilitation hinaus findet die Einschätzung der Körperhaltung auch in Fitness-Apps ihren Weg. Wer zum Beispiel zu Hause trainiert, kann die App nutzen, um seine Form bei Übungen zu überprüfen. Die App kann in Echtzeit Feedback geben, z. B. zur Anpassung des Winkels bei einer Kniebeuge oder um sicherzustellen, dass der Rücken bei einem Kreuzheben gerade ist. So können die Nutzer ihre Form verbessern und Verletzungen vorbeugen, ohne einen Trainer zu benötigen.
Die Posenschätzung hat die Art und Weise, wie Motion Capture in der Unterhaltungsbranche funktioniert, verändert und sie einfacher und zugänglicher gemacht. In der Vergangenheit mussten für die Bewegungserfassung Markierungen am Körper einer Person angebracht und mit speziellen Kameras verfolgt werden, was schwierig und teuer sein konnte.
Dank der Fortschritte im Bereich der künstlichen Intelligenz und der Computer-Vision können wir nun normale Kameras und Algorithmen verwenden, um Körperbewegungen zu verfolgen, ohne dass wir Marker benötigen, wodurch der Prozess effizienter und genauer wird, sogar in Echtzeit.
Ein gutes Beispiel dafür ist Disneys AR (Augmented Reality) Poser. Mit diesem lustigen Tool können Sie ein Foto mit Ihrem Telefon machen und eine digitale Figur Ihre Pose in der erweiterten Realität kopieren lassen. Dazu wird Ihre Pose auf dem Bild analysiert und mit einer 3D-Figur abgeglichen, sodass ein lustiges, personalisiertes AR-Selfie entsteht.
Das Studium des Tierverhaltens hilft Wissenschaftlern zu verstehen, wie Tiere kommunizieren, sich paaren, für ihre Jungen sorgen und in Gruppen leben. Dieses Wissen ist wichtig für den Schutz von Wildtieren und für ein besseres Verständnis der natürlichen Welt.
Die Posenschätzung vereinfacht diesen Prozess, indem sie die Bewegungen und die Körperhaltung der Tiere anhand von Bildern und Videos verfolgt, ohne dass Sensoren oder Markierungen an den Tieren angebracht werden müssen. Diese Systeme können die Haltung der Tiere automatisch überwachen und geben Aufschluss über Verhaltensweisen wie Fellpflege, Spielen oder Kämpfen.
Ein interessantes Beispiel hierfür ist die Verwendung von Posenschätzungen zur Untersuchung des Verhaltens von Affen. In der Tat haben Forscher Datensätze wie OpenApePose zusammengestellt, die über 71.000 beschriftete Bilder von sechs Affenarten enthalten.
Im Folgenden sind einige der wichtigsten Vorteile aufgeführt, die eine Posenschätzung für verschiedene Branchen mit sich bringen kann:
Während die Vorteile der Posenschätzung in verschiedenen Bereichen klar auf der Hand liegen, gibt es auch einige Herausforderungen zu beachten. Hier sind einige wichtige Einschränkungen, die Sie im Auge behalten sollten:
Die Posenschätzung hat sich seit ihren Anfängen stark weiterentwickelt - von Systemen, die mit Markern arbeiteten, bis hin zu wirkungsvollen Tools, die auf Deep-Learning-Modellen wie YOLO11 basieren. Ob sie nun die Physiotherapie verbessert, interaktive AR-Erlebnisse ermöglicht oder bei der Erforschung von Wildtieren hilft - die Pose-Schätzung verändert die Art und Weise, wie Maschinen Bewegungen und Körperhaltung verstehen. Da die Technologie immer weiter voranschreitet, wird die Überwindung ihrer Grenzen der Schlüssel dazu sein, noch mehr praktische Anwendungen zu erschließen und Maschinen besser verstehen zu lassen, wie wir und andere Lebewesen sich bewegen.
Neugierig auf KI? Erkunden Sie unser GitHub-Repository, tauschen Sie sich mit unserer Community aus, und informieren Sie sich über unsere Lizenzierungsoptionen, um Ihr Computer-Vision-Projekt zu starten. Erfahren Sie mehr über Innovationen wie KI im Einzelhandel und Computer Vision in der Logistikbranche auf unseren Lösungsseiten.