Was ist OpenPose? Die Grundlagen der Pose-Schätzung

Heutzutage sind Bilder und Kameras allgegenwärtig - eingebaut in unsere Telefone, Häuser und sogar öffentliche Räume. Wir verlassen uns nicht nur darauf, dass sie Momente festhalten, sondern auch darauf, dass sie uns helfen, die Welt um uns herum zu verstehen und mit ihr zu interagieren.

Hinter den Kulissen macht die Computer Vision, ein Teilbereich der künstlichen Intelligenz (AI), dies möglich, indem sie Maschinen in die Lage versetzt, visuelle Daten zu interpretieren. Sie ermöglicht es Systemen, Objekte detect , Gesichter zu identifizieren und Bewegungen track , und spielt eine Schlüsselrolle in vielen Technologien, die wir täglich nutzen.

Dank der jüngsten Fortschritte im Bereich der KI können Computer-Vision-Modelle jetzt komplexere Daten und Erkenntnisse analysieren und extrahieren. Ein Beispiel hierfür ist die Pose-Schätzung (Pose Estimation), eine Computer-Vision-Aufgabe, die sich auf das Verständnis menschlicher Bewegungen konzentriert.

Es funktioniert, indem es Schlüsselpunkte am Körper, wie z. B. Schultern, Ellbogen und Knie, in Bildern oder Videos identifiziert. Dies ermöglicht die Analyse der Bewegung von Personen und ermöglicht Anwendungen in den Bereichen Fitness-Tracking, Animation, Gesundheitswesen und mehr.

Unter den vielen Werkzeugen, die für die Pose-Schätzung entwickelt wurden, sticht OpenPose als wichtiger Durchbruch hervor. Es wurde von Forschern des Perceptual Computing Lab an der Carnegie Mellon University entwickelt und war eines der ersten Open-Source-Systeme, das in der Lage war, Ganzkörperposen, einschließlich Hände, Füße und Gesichts-Keypoints, für mehrere Personen in Echtzeit mit nur einer Kamera zu erkennen (mit bis zu 135 Keypoints pro Person).

In diesem Artikel werden wir OpenPose untersuchen, wie es funktioniert und welche Bedeutung es als Meilenstein in der Computer Vision hat.

Abb. 1. Multi-Personen-Pose-Schätzung mit OpenPose.

‍

Ein Blick auf die Geschichte der Pose-Schätzung

Bevor KI weit verbreitet war, erforderte die Verfolgung menschlicher Bewegungen in Videos den Einsatz spezieller Geräte. In Branchen wie Film und Animation trugen Schauspieler oft Anzüge mit reflektierenden Markierungen, damit Kameras ihre Bewegungen in einer kontrollierten Studioumgebung erfassen konnten.

Diese markerbasierten Bewegungserfassungstechniken waren zwar genau, aber auch teuer und auf bestimmte Aufbauten beschränkt. Mit der Weiterentwicklung der Computer Vision suchten die Forscher nach Möglichkeiten, Körperbewegungen ohne Marker track . Sie nutzten Kanten, Konturen und Vorlagen, um menschliche Formen in Bildern zu finden.

Diese frühen Systeme funktionierten in einfachen und unkomplizierten Fällen, hatten aber Schwierigkeiten mit realen Szenarien. Sie lieferten oft schlechte Ergebnisse, wenn sich Personen unerwartet bewegten oder wenn mehr als eine Person in einem Frame erschien.

In den späten 2010er Jahren brachte Deep Learning eine bedeutende Verschiebung in der Pose-Schätzung. Vision-KI-Modelle konnten auf großen Datensätzen menschlicher Posen trainiert werden. Anstatt sich auf Kanten und Vorlagen zu verlassen, lernten die Modelle, Körpergelenke und -strukturen zu erkennen, indem sie Tausende von beschrifteten Bildern untersuchten. Dies machte die Pose-Schätzung genauer, flexibler und wirkungsvoller in einem breiteren Spektrum von Umgebungen.

Abb. 2. Die Entwicklung von Modellen zur Schätzung der menschlichen Pose von 2017 bis 2023.

‍

OpenPose: Wo die moderne Pose-Schätzung ihren Anfang nahm

OpenPose wurde erstmals im Jahr 2017 veröffentlicht und ist in der Lage, die Posen mehrerer Personen gleichzeitig in einem einzigen Bild zu schätzen. Im Gegensatz zu älteren Systemen benötigt OpenPose keine speziellen Anzüge oder Markierungen. Es funktioniert mit Standardkameras und kann Bilder und Videos in Echtzeit verarbeiten. Diese Funktionen machten die Pose-Schätzung für Entwickler und Forscher zugänglicher.

Die Grundlage, die OpenPose für die Computer Vision gelegt hat, half anderen, neuere Architekturen für eine Vielzahl anderer Anwendungen zu entwickeln. Heute werden Vision AI-Modelle wie Ultralytics YOLO8 und Ultralytics YOLO11 die Posenschätzungsaufgaben unterstützen, bieten schnellere Ergebnisse und geringere Latenzzeiten.

Abb. 3. Verwendung von YOLO11 für die Posenschätzung.

‍

OpenPose ist jedoch ein guter Ausgangspunkt, wenn Sie wissen möchten, wie sich die Pose-Schätzung entwickelt hat. Es führte Schlüsselideen ein, auf die sich viele neuere Systeme noch heute stützen.

Die wichtigsten Fähigkeiten von OpenPose

Nachdem wir nun ein besseres Verständnis dafür haben, warum OpenPose wichtig ist, wollen wir uns genauer ansehen, was es tatsächlich leisten kann.

Das Herzstück der Funktionen von OpenPose ist die so genannte Keypoint-Erkennung. Keypoints sind bestimmte Orientierungspunkte am menschlichen Körper, wie die Nasenspitze, die Mitte der Schultern, Ellbogen, Handgelenke, Hüften, Knie und Knöchel. OpenPose kann bis zu 135 dieser Punkte pro Person detect , einschließlich detaillierter Bereiche wie Finger und Gesichtszüge.

Wenn diese Punkte miteinander verbunden sind, bilden sie eine vereinfachte Darstellung des menschlichen Körpers – man kann es sich als ein digitales Skelett vorstellen. Dieser skelettartige Umriss zeigt nicht nur, wo sich eine Person befindet, sondern auch, wie sie sich positioniert: ob sie sitzt, steht, winkt, lächelt oder geht. Computer können menschliche Bewegungen visuell anhand dieser Skelette interpretieren, ähnlich wie wir instinktiv die Körpersprache eines Menschen verstehen.

Skeletal Tracking ist besonders nützlich, da es Hintergrundgeräusche und Ablenkungen ausblendet, sodass sich das System ausschließlich auf die menschliche Körperhaltung und Bewegung konzentrieren kann. Anstatt jedes Pixel zu analysieren, konzentriert sich OpenPose auf aussagekräftige Punkte, die die Geschichte erzählen, wie sich eine Person bewegt oder interagiert.

Durch die Extraktion dieser strukturierten Informationen aus alltäglichen Bildern oder Videos ermöglicht OpenPose die Entwicklung von Anwendungen, die auf Gesten reagieren, körperliche Aktivität überwachen, emotionale Hinweise bewerten oder sogar digitale Charaktere animieren können.

Wie funktioniert OpenPose?

Hier ist eine Übersicht darüber, wie OpenPose Schlüsselpunkte am menschlichen Körper anhand von visuellen Eingaben erkennt und verbindet:

Beginnt mit einem Bild: OpenPose nimmt ein einzelnes Bild von einem Foto, Video oder Live-Kamera-Feed auf.
‍
Erkennt wichtige Körperteile: Das System sucht nach wichtigen Punkten am Körper, wie Nase, Ellbogen, Handgelenke, Knie und Knöchel. Sie werden überall dort markiert, wo das System sicher ist, dass sich ein Körperteil befindet.
‍
Findet heraus, welche Teile zusammengehören: Als Nächstes prüft OpenPose, wie die Keypoints verbunden sind. Es verwendet mathematische Berechnungen, um zu entscheiden, welche Gelenke zu derselben Person gehören - zum Beispiel, um ein Handgelenk dem rechten Ellbogen und der Schulter zuzuordnen.
‍
Zeichnet ein Skelett für jede Person: Nach dem Gruppieren der Keypoints verbindet OpenPose sie zu einer "Strichmännchenfigur", die die Pose jeder Person zeigt. Dies funktioniert auch, wenn mehrere Personen im selben Frame erscheinen.
‍
Gibt die Pose-Daten zurück: Schließlich liefert es die genauen Positionen aller erkannten Keypoints. Diese können verwendet werden, um Bewegungen zu verfolgen, Gesten zu erkennen oder interaktive Tools zu erstellen - alles in Echtzeit.

Abb. 4. Erkennung und Verfolgung menschlicher Keypoints mit OpenPose.

‍

Anwendungen zur Posenschätzung in verschiedenen Branchen mit OpenPose

OpenPose war eines der ersten fortschrittlichen Tools, das die Pose-Schätzung für eine Vielzahl von realen Anwendungsfällen praktikabel machte. Obwohl es heute nicht mehr so häufig in Computer Vision-Lösungen in Echtzeit eingesetzt wird, spielte es eine wichtige Rolle bei der Gestaltung früherer Arbeiten in Bereichen wie Sport, Unterhaltung, Bildung und Sicherheit.

Werfen wir einen genaueren Blick darauf, wie es dazu beigetragen hat, den Weg in diesen Bereichen zu ebnen.

Posenschätzung mit OpenPose für Fitness und Sport

Wenn Sie Baseball schauen, ist es leicht zu verstehen, was passiert – Sie können sofort einen Pitch, einen Schwung oder eine gestohlene Base erkennen. Als Menschen lesen wir intuitiv Körperbewegungen und verstehen sie ohne großen Aufwand. Für Maschinen ist die Erkennung dieser Aktionen jedoch weitaus komplexer. Sie benötigen genaue Informationen darüber, wie sich jeder Teil des Körpers im Raum bewegt.

OpenPose war ein wesentlicher Fortschritt in diesem Bereich der Computer Vision. Es war ein praktisches Werkzeug zur Analyse der sportlichen Form in verschiedenen Umgebungen.

Viele Forschungsprojekte nutzten OpenPose, um Bewegungen wie Schwünge und Sprünge aufzuschlüsseln und sogar bestimmte Baseballaktionen anhand der Bewegungen der Spieler zu klassifizieren. Da es in offenen Umgebungen mit Standardvideos funktionierte, konnten die Forscher testen, wie solche Systeme in realen Trainings- oder Coachingszenarien funktionieren könnten.

Diese frühen Studien trugen dazu bei, die Grundlage für die Performance-Tracking-Tools zu legen, die heute in der fortschrittlichen Sporttechnologie verwendet werden.

Abb. 5. Ein Blick auf eine Pipeline zur Klassifizierung von Baseball-Aktionen mit OpenPose.

‍

Verwendung von OpenPose in Sicherheits- und Schutzsystemen

In ähnlicher Weise nutzten Forscher OpenPose, um zu untersuchen, wie videobasierte Pose-Tracking-Technologien die Sicherheitsüberwachung unterstützen können. Es wurde getestet, um Verhaltensweisen zu erkennen, wie z. B. Stürze, unerwartete Gesten oder Bewegungsmuster im öffentlichen Raum.

Da OpenPose mit Standardkameras funktionierte, ermöglichte es frühe Experimente in Umgebungen wie Krankenhäusern und Verkehrsknotenpunkten. Diese Studien trugen zur Entwicklung neuerer Modelle bei, die heute in Überwachungs-, Sturzerkennungs- und Notfallreaktionssystemen eingesetzt werden.

‍

Vor- und Nachteile von OpenPose

Hier ist ein Einblick in einige der Vorteile, die OpenPose bietet:

Nützlich für Forschung und Prototyping: Es wurde häufig in der akademischen Forschung eingesetzt, insbesondere in Bereichen wie Mensch-Computer-Interaktion, Biomechanik und Verhaltensanalyse.
‍
Cross-Plattform-Unterstützung: Es kann unter Windows, Linux und macOS ausgeführt werden und unterstützt sowohl zentrale Verarbeitungseinheiten (CPUs) als auch Grafikprozessoren (GPUs).
‍
Offline-Verarbeitungsfähigkeit: Es kann in Umgebungen ohne Internetzugang ausgeführt werden, was es ideal für datenschutzsensible Umgebungen wie das Gesundheitswesen oder die Bildung macht.

Obwohl OpenPose ein wichtiger Fortschritt war, hat es auch technische Einschränkungen, die es zu beachten gilt. Hier sind einige der wichtigsten Herausforderungen im Zusammenhang mit OpenPose:

Hohe Verarbeitungsanforderungen: Die Ausführung von OpenPose in Echtzeit erfordert einen leistungsstarken GPU und erhebliche Rechenressourcen.
‍
Empfindlich gegenüber der Umgebung: Die Leistung kann bei schlechten Lichtverhältnissen, in überfüllten Räumen oder bei nicht idealen Kamerawinkeln abnehmen.
‍
Hoher Ressourcenbedarf im Vergleich zu neueren Modellen: Im Vergleich zu neueren Modellen zur Pose-Schätzung ist OpenPose relativ groß und langsam. Es ist nicht gut geeignet für den Einsatz auf ressourcenbeschränkten Geräten wie Smartphones, Tablets oder eingebetteten Systemen.

Wesentliche Erkenntnisse

OpenPose spielte eine wichtige Rolle dabei, die Pose-Schätzung zugänglicher zu machen. Es zeigte, dass die Verfolgung von Körperbewegungen mit einer einfachen Kamera möglich ist, ohne auf Anzüge oder spezielle Ausrüstung angewiesen zu sein.

Es legte den Grundstein für viele praktische Anwendungen in den Bereichen Gesundheitswesen, Bildung, Unterhaltung und Forschung. Während neuere Modelle inzwischen schnellere Geschwindigkeiten und eine schlankere Performance bieten, bleibt OpenPose ein wichtiger Bezugspunkt für das Verständnis der Entwicklung der Pose-Schätzung.

Treten Sie unserer Community bei und besuchen Sie unser GitHub-Repository, um mehr über KI zu erfahren. Wenn Sie Ihre eigenen Computer-Vision-Lösungen entwickeln möchten, erkunden Sie unsere Lizenzoptionen. Sehen Sie sich auch an, wie Computer Vision im Gesundheitswesen und KI in der Logistik Wirkung zeigen!

Was ist OpenPose? Eine Erkundung eines Meilensteins in der Pose-Schätzung

Ein Blick auf die Geschichte der Pose-Schätzung

OpenPose: Wo die moderne Pose-Schätzung ihren Anfang nahm

Die wichtigsten Fähigkeiten von OpenPose

Wie funktioniert OpenPose?

Anwendungen zur Posenschätzung in verschiedenen Branchen mit OpenPose

Posenschätzung mit OpenPose für Fitness und Sport

Verwendung von OpenPose in Sicherheits- und Schutzsystemen

Vor- und Nachteile von OpenPose

Wesentliche Erkenntnisse

Mehr in dieser Kategorie lesen

Selbstüberwachtes Lernen zur Rauschunterdrückung: Eine schrittweise Aufschlüsselung

Was bedeutet Bildabgleich bei Vision AI? Eine kurze Einführung

Eine Einführung in das aufstrebende Gebiet der neurosymbolischen KI

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Was ist OpenPose? Eine Erkundung eines Meilensteins in der Pose-Schätzung

Ein Blick auf die Geschichte der Pose-Schätzung

OpenPose: Wo die moderne Pose-Schätzung ihren Anfang nahm

Die wichtigsten Fähigkeiten von OpenPose

Wie funktioniert OpenPose?

Anwendungen zur Posenschätzung in verschiedenen Branchen mit OpenPose

Posenschätzung mit OpenPose für Fitness und Sport

Verwendung von OpenPose in Sicherheits- und Schutzsystemen

Vor- und Nachteile von OpenPose

Wesentliche Erkenntnisse

Mehr in dieser Kategorie lesen

Selbstüberwachtes Lernen zur Rauschunterdrückung: Eine schrittweise Aufschlüsselung

Was bedeutet Bildabgleich bei Vision AI? Eine kurze Einführung

Eine Einführung in das aufstrebende Gebiet der neurosymbolischen KI

Lasst uns gemeinsam die Zukunft der KI gestalten!

Lasst uns gemeinsam die Zukunft
der KI gestalten!