Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Stichpunkte

Entdecken Sie die wichtigsten Punkte der Computer Vision: Posenschätzung mit Ultralytics YOLO11 für Fitness, Gestenerkennung und schnelles, präzises Tracking.

In der Computer Vision sind Keypoints spezifische Punkte von Interesse in einem Bild, die unverwechselbar und wiederholbar sind. Diese Punkte dienen als kompakte, strukturelle Orientierungspunkte, die ein Objekt oder eine Szene repräsentieren und es Maschinen ermöglichen, visuelle Inhalte mit größerer Detailgenauigkeit zu verstehen und zu analysieren. Anstatt jeden einzelnen Pixel zu verarbeiten, konzentrieren sich Algorithmen auf diese Schlüsselpunkte - wie Ecken, Kanten oder die Gelenke eines menschlichen Körpers -, um komplexe Aufgaben wie die Verfolgung von Bewegungen, die Erkennung von Objekten und die Rekonstruktion von 3D-Szenen durchzuführen. Durch die Konzentration auf diese informativen Punkte können Computer-Vision-Modelle eine hohe Effizienz und Genauigkeit erreichen.

Erkennung von Schlüsselpunkten und Schätzung der Körperhaltung

Die Hauptanwendung von Keypoints ist die Posenschätzung, eine Aufgabe der Computer Vision, bei der es darum geht, die Position und Ausrichtung eines Objekts oder einer Person zu bestimmen. Bei der Schätzung der menschlichen Körperhaltung entsprechen die Keypoints den wichtigsten Körpergelenken wie Schultern, Ellbogen, Knien und Handgelenken. Durch die Erkennung dieser Punkte in einem Bild oder Video kann ein Modell eine skelettartige Darstellung des menschlichen Körpers konstruieren. Dieses "digitale Skelett" ermöglicht es einem KI-System, Körperhaltung, Gesten und Bewegungen zu analysieren, ohne das Aussehen der Person, ihre Kleidung oder die Umgebung kennen zu müssen.

Fortschrittliche Deep-Learning-Modelle wie Ultralytics YOLO11 werden auf großen, kommentierten Datensätzen wie COCO trainiert, um die Positionen dieser Keypoints in Echtzeit genau vorherzusagen. Frühe Systeme wie OpenPose haben den Weg geebnet, indem sie gezeigt haben, dass sie in der Lage sind, Ganzkörper-, Hand- und Gesichtspunkte für mehrere Personen gleichzeitig zu erkennen. Moderne Architekturen haben auf diesen Grundlagen aufgebaut, um schnellere und präzisere Ergebnisse für eine breite Palette von Anwendungen zu liefern.

Keypoints im Vergleich zu anderen Computer Vision Konzepten

Es ist wichtig, die Erkennung von Keypoints von anderen verwandten Aufgaben in der Computer Vision zu unterscheiden:

  • Begrenzungsrahmen (Bounding Boxes): Bei der Objekterkennung wird in der Regel ein Begrenzungsrahmen (Bounding Box) - eineinfaches Rechteck - verwendet, um die Position eines Objekts anzuzeigen. Die Keypoint-Erkennung bietet ein detaillierteres Verständnis, indem sie bestimmte strukturelle Punkte innerhalb dieser Box identifiziert, die die Haltung und Form des Objekts beschreiben.
  • Instanz-Segmentierung: Während Keypoints einen skelettartigen Umriss erstellen, geht die Instanzsegmentierung einen Schritt weiter, indem sie die genaue Form eines Objekts auf Pixelebene umreißt. Die Segmentierung liefert eine vollständige Begrenzung, während Keypoints eine strukturelle Zusammenfassung bieten.
  • Merkmalsdeskriptoren: Nachdem ein Schlüsselpunkt erkannt wurde, kann ein Merkmalsdeskriptor berechnet werden, der den Bildbereich um ihn herum beschreibt. Algorithmen wie SIFT und ORB erzeugen diese Deskriptoren, die als numerischer "Fingerabdruck" für den Abgleich entsprechender Schlüsselpunkte zwischen verschiedenen Bildern verwendet werden.

Anwendungsfälle in der Praxis

Die Fähigkeit, Keypoints zu erkennen und zu verfolgen, hat in verschiedenen Branchen zu bedeutenden Fortschritten geführt. Hier sind zwei herausragende Beispiele:

  1. Intelligente Fitness- und Sportanalyse: Bei Fitnessanwendungen verfolgen Modelle zur Schätzung der Körperhaltung die wichtigsten Körpergelenke, um die Form eines Benutzers bei Übungen wie Kniebeugen oder Yoga zu überwachen. Das System kann Wiederholungen zählen, Echtzeit-Feedback zur Körperhaltung geben, um Verletzungen vorzubeugen, und die sportliche Leistung mit hoher Präzision analysieren. Mit dieser Technologie lassen sich personalisierte und interaktive Trainingserlebnisse schaffen, die über eine Standardkamera zugänglich sind.
  2. Erkennung von Handgesten: Durch die Erkennung von Tasten auf der Hand und den Fingern können KI-Systeme komplexe Handbewegungen interpretieren. Dies ist entscheidend für die Entwicklung intuitiver Steuerungen in der erweiterten und virtuellen Realität, für die Erstellung von Übersetzungswerkzeugen für Gebärdensprache und für die berührungslose Interaktion mit intelligenten Geräten. Modelle, die auf der Grundlage von Hand-Tastenpunkt-Datensätzen trainiert wurden, können Gesten erkennen, die von einem einfachen Zwicken bis zu komplizierten Zeichen reichen.

Weitere Anwendungen sind die Erkennung von Gesichtsmerkmalen für die Emotionsanalyse und AR-Filter, die Schätzung der Körperhaltung von Tieren für Verhaltensstudien zum Schutz von Wildtieren und die Robotik, die Maschinen bei der Navigation und Interaktion mit ihrer Umgebung unterstützt.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert