Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Schätzung der Pose

Entdecken Sie die Posenschätzung: Wie funktionieren Keypoint-Modelle (Top-Down vs. Bottom-Up), praktische Anwendungen vom Gesundheitswesen bis zum Sport sowie die wichtigsten Vorteile und Herausforderungen.

Die Posenschätzung ist eine spezielle Computer-Vision-Aufgabe, die über die Erkennung von Objekten hinausgeht und deren spezifische Geometrie und Ausrichtung identifiziert. Durch die genaue Bestimmung der Koordinaten für strukturelle Orientierungspunkte – sogenannte Schlüsselpunkte– erstellt diese Technologie eine Skelettrepräsentation eines Objekts. Beim Menschen entsprechen diese Schlüsselpunkte in der Regel den großen Gelenken wie Schultern, Ellbogen, Hüften und Knien. Diese Fähigkeit ermöglicht es Modellen des maschinellen Lernens, die Körpersprache , Aktivitäten und Körperhaltung zu interpretieren und so die Lücke zwischen der einfachen Pixelerkennung und dem Verständnis komplexer körperlicher Verhaltensweisen

Zentrale Mechanismen und Ansätze

Die moderne Posenschätzung stützt sich stark auf Deep-Learning-Architekturen, insbesondere Convolutional Neural Networks (CNNs) und zunehmend auch Transformers. Der Prozess lässt sich im Allgemeinen in zwei Hauptmethoden unterteilen:

  • Top-Down-Ansatz: Bei dieser Methode wird zunächst ein Objekterkennungsmodell zur Lokalisierung einzelner Instanzen (z. B. Menschen) innerhalb eines Begrenzungsrahmens. Sobald schätzt das System dann die Keypoints für diese einzelne Person. Dieses Verfahren ist oft genauer, aber mit zunehmender teuer, wenn die Anzahl der Personen steigt.
  • Bottom-Up-Ansatz: Alternativ dazu erkennt das Modell zunächst alle potenziellen Keypoints im gesamten Bild (z. B. jeder linke Ellbogen) und assoziiert sie dann, um eindeutige Skelette zu bilden. Dies wird oft bevorzugt für Echtzeit-Inferenz in überfüllten Szenen bevorzugt, da die Verarbeitungszeit weniger von der Anzahl der Personen abhängig ist.

Für Hochleistungsanwendungen integrieren die neuesten YOLO26-Modelle diese Konzepte, um eine schnelle Posenabschätzung zu liefern, die für Edge-Geräte geeignet ist.

Unterscheidung von verwandten Konzepten

Es ist wichtig, die Posenschätzung von ähnlichen Sehaufgaben zu unterscheiden:

  • Versus Object Detection: Während die Objekterkennung feststellt, wo sich ein Objekt befindet und was es ist (Klassenbezeichnung), behandelt sie das Objekt als starren Kasten. Die Pose-Schätzung enthüllt die innere Struktur und Artikulation innerhalb dieses Kastens.
  • Im Gegensatz zur Instanzsegmentierung: Die Instanzsegmentierung liefert eine pixelgenaue Maske der Form eines Objekts. Damit wird zwar die Grenze umrissen, aber es werden nicht explizit die Gelenke oder Skelettverbindungen, die für die Analyse der Bewegungsdynamik oder Kinematik erforderlich sind. Kinematik.

Anwendungsfälle in der Praxis

Der Nutzen der Posenschätzung erstreckt sich auf verschiedene Branchen, in denen die Analyse von Bewegungen von entscheidender Bedeutung ist.

Gesundheitswesen und Rehabilitation

Im Bereich der künstlichen Intelligenz im Gesundheitswesen hilft die Schätzung der Körperhaltung bei der physikalischen Therapie durch die automatische Verfolgung von Patientenbewegungen. Die Systeme können den Winkel der Gelenke während Rehabilitationsübungen messen, um sicherzustellen, dass die Patienten die richtige Form beibehalten und das Risiko einer erneuten Verletzung verringern. Dies ermöglicht Fernüberwachung und Fortschritte in der Telemedizin, was eine qualitativ hochwertige Versorgung leichter zugänglich macht.

Sportanalyse und Biomechanik

Trainer und Sportler nutzen Sportanalytik um die Leistung zu analysieren. Durch die Extraktion biomechanischer Daten aus Videoaufnahmen kann die KI die Schwungebene eines Golfspielers oder die Effizienz des Gangs eines Läufers analysieren, ohne dass aufdringliche Marker Anzüge, wie sie bei der traditionellen Bewegungserfassung verwendet werden.

Code-Beispiel: Posenschätzung mit YOLO26

Die folgenden Python Der Ausschnitt zeigt, wie ein vortrainiertes YOLO26-Modell geladen wird und eine Posenschätzung für ein Bild durchgeführt wird. Dazu ist Folgendes erforderlich: ultralytics Paket und visualisiert die skelettartige Ausgabe.

from ultralytics import YOLO

# Load the official YOLO26 nano pose model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image source to detect keypoints
results = model("path/to/image.jpg")

# Visualize the detected keypoints and skeleton
results[0].show()

Herausforderungen und Daten

Für das Training von robusten Posenmodellen werden umfangreiche kommentierte Datensätze benötigt. Standard-Benchmarks wie der COCO liefern Tausende von beschrifteten menschlichen Figuren. Es gibt jedoch noch weitere Herausforderungen, wie z. B. Verdeckung (wenn Körperteile Körperteile verdeckt sind) und Selbstverstopfung (wenn eine Person ihre eigenen Gliedmaßen blockiert). Die Bewältigung dieser Probleme erfordert fortschrittliche Techniken zur Datenerweiterung und vielfältige Trainingsdaten, die verschiedene Blickwinkel und Lichtverhältnisse Bedingungen.

Darüber hinaus erfordert der Einsatz dieser Modelle auf Edge-KI-Geräten eine sorgfältige Optimierung, wie z. B. die Modellquantisierung, um eine hohe Genauigkeit zu gewährleisten, ohne dabei an Geschwindigkeit einzubüßen. Mit der Ultralytics , die das Training und die Bereitstellung vereinfacht, können Anwender diesen Workflow optimieren.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten