Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Schätzung der Pose

Entdecken Sie die Posenschätzung: Wie funktionieren Keypoint-Modelle (Top-Down vs. Bottom-Up), praktische Anwendungen vom Gesundheitswesen bis zum Sport sowie die wichtigsten Vorteile und Herausforderungen.

Die Schätzung der Körperhaltung ist eine Aufgabe der Computer Vision, bei der die Position und Ausrichtung einer Person oder eines Objekts durch die Lokalisierung von Schlüsselpunkten wie Gelenken, Orientierungspunkten oder anderen eindeutigen Merkmalen ermittelt wird. Das Ergebnis ist eine Reihe von Koordinaten, die zu einer Skelettstruktur verbunden werden können, die ein detailliertes Verständnis der Körperhaltung und Bewegung eines Objekts in einem Bild oder Video ermöglicht. Diese Technologie ist von grundlegender Bedeutung für Anwendungen, die ein Bewusstsein für Bewegungen, Gesten oder bestimmte Körperkonfigurationen erfordern, von der Fitnessüberwachung bis zur Robotik.

Wie die Posenschätzung funktioniert

Modelle zur Schätzung der Körperhaltung analysieren visuelle Daten, um die Positionen von vordefinierten Schlüsselpunkten vorherzusagen. Bei der Schätzung der menschlichen Haltung handelt es sich in der Regel um wichtige Gelenke wie Schultern, Ellbogen, Hüften und Knie. Diese Punkte werden dann miteinander verknüpft, um ein Skelett zu erstellen, das die Struktur des Körpers und die aktuelle Haltung darstellt. Für diesen Prozess gibt es zwei Hauptmethoden:

  • Top-Down-Ansatz: Bei dieser Methode wird zunächst ein Objektdetektor verwendet, um jede Person oder jedes Objekt in einem Bild mit einer Bounding Box zu identifizieren und zu isolieren. Anschließend wird der Inhalt jeder Box einzeln analysiert, um die Schlüsselpunkte für diese spezifische Instanz zu finden. Diese Methode ist zwar intuitiv, ihre Leistung hängt jedoch stark von der anfänglichen Objekterkennung ab.
  • Bottom-Up-Ansatz: Dieser Ansatz beginnt mit der Erkennung aller Schlüsselpunkte im gesamten Bild, z. B. aller Ellbogen und aller Knie, und gruppiert diese Punkte dann in verschiedene Skelette. Diese Methode kann in überfüllten Szenen effizienter sein, da die Verarbeitungszeit nicht von der Anzahl der anwesenden Personen abhängt.

Moderne Architekturen, wie die in Ultralytics YOLO11 verwendeten, kombinieren oft die Stärken beider Ansätze, um ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit in Echtzeitanwendungen zu erreichen.

Posenschätzung im Vergleich zu anderen Aufgaben der Computer Vision

Die Pose-Schätzung bietet eine detailliertere Analyseebene als andere gängige Computer-Vision-Aufgaben. Diese Aufgaben sind zwar verwandt, dienen aber unterschiedlichen Zwecken:

  • Objekt-Erkennung konzentriert sich auf die Identifizierung und Lokalisierung von Objekten, indem ein rechteckiger Begrenzungsrahmen um sie herum gezeichnet wird. Sie beantwortet die Fragen "Was ist das Objekt?" und "Wo befindet es sich?", liefert aber keine Informationen über die Haltung oder Artikulation des Objekts.
  • Instanz-Segmentierung geht bei der Erkennung noch einen Schritt weiter, indem die genaue Form jedes Objekts auf Pixelebene beschrieben wird. Wie die Objekterkennung beschreibt sie jedoch nicht die interne Konfiguration des Objekts.

Die Schätzung der Körperhaltung ist einzigartig in ihrer Fähigkeit zu interpretieren, wie ein Objekt oder eine Person positioniert ist und sich bewegt, was für ein tieferes Verständnis von Handlungen und Verhalten entscheidend ist.

Anwendungsfälle in der Praxis

Die Fähigkeit, Bewegungen zu analysieren, eröffnet eine breite Palette von Anwendungen in vielen Branchen.

  • AI im Gesundheitswesen und Physiotherapie: Systeme zur Schätzung der Körperhaltung helfen bei der Überwachung von Patienten, die Rehabilitationsübungen durchführen, und stellen sicher, dass diese korrekt ausgeführt werden und der Fortschritt im Laufe der Zeit verfolgt werden kann. Durch die Analyse der Bewegungen eines Patienten über eine einfache Kamera können diese Systeme Echtzeit-Feedback geben und so dazu beitragen, Verletzungen zu vermeiden und die Genesungsergebnisse zu verbessern, ohne dass manuelle Bewertungen erforderlich sind.
  • Sportanalyse und Fitness: Trainer und Sportler nutzen die Posenschätzung zur detaillierten biomechanischen Analyse von Bewegungen. So kann beispielsweise der Schwung eines Golfspielers, die Schussform eines Basketballspielers oder der Gang eines Läufers verfolgt werden, um verbesserungswürdige Bereiche zu ermitteln und das Verletzungsrisiko zu verringern. Diese Technologie wird auch in Trainingsüberwachungs-Apps integriert, um die Benutzer durch Übungen mit der richtigen Technik zu führen.
  • Bewegungserfassung und Animation: In der Unterhaltungsindustrie bietet die Posenschätzung eine markerlose Alternative zu herkömmlichen Motion-Capture-Techniken, bei denen die Schauspieler oft spezielle Anzüge mit Sensoren tragen müssen. Dies vereinfacht den Prozess der Animation digitaler Figuren und macht ihn zugänglicher und effizienter.
  • Überwachung des Tierverhaltens: Forscher setzen die Posenschätzung ein, um Tiere in ihrem natürlichen Lebensraum ohne störende Markierungen zu untersuchen. Durch die Verfolgung der Körperhaltung und der Bewegungen verschiedener Tierarten können Wissenschaftler Einblicke in soziale Interaktionen und andere Verhaltensweisen gewinnen, die für die Bemühungen zum Schutz von Wildtieren wichtig sind.

Wichtigste Vorteile und Herausforderungen

Die Posenschätzung bietet erhebliche Vorteile, hat aber auch gewisse Einschränkungen.

Vorteile

  • Kosteneffektiv: Das System basiert auf Standardkameras, so dass keine teure Spezialhardware oder -sensoren erforderlich sind.
  • Nicht-invasiv: Es ermöglicht die Verfolgung der Bewegungen von Menschen und Tieren ohne physische Markierungen oder Tags.
  • Reichhaltige Daten: Es liefert detaillierte Informationen über Körperhaltung und Bewegung, die bei anderen Computer-Vision-Aufgaben nicht verfügbar sind.

Herausforderungen

  • Verdeckung: Die Genauigkeit kann erheblich abnehmen, wenn Körperteile die Sicht versperren oder sich mit anderen Objekten oder Personen überlappen.
  • Umgebungsfaktoren: Schlechte Lichtverhältnisse, Bewegungsunschärfe und unübersichtliche Hintergründe können die Leistung des Modells beeinträchtigen.
  • Datenanforderungen: Das Training genauer Modelle erfordert große und vielfältige Datensätze, wie den COCO-Pose-Datensatz, und die Modelle lassen sich möglicherweise nicht gut auf Posen oder Personen verallgemeinern, die in den Trainingsdaten nicht gut repräsentiert sind.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert