Entdecken Sie die wichtigsten Punkte der Computer Vision: Posenschätzung mit Ultralytics YOLO11 für Fitness, Gestenerkennung und schnelles, präzises Tracking.
Schlüsselpunkte sind spezifische, informative räumliche Positionen innerhalb eines Bildes, die bestimmte Merkmale eines Objekts oder einer Szene definieren. Im Bereich der Computervision (CV) markieren diese Punkte – die in der Regel als X- und Y-Koordinaten dargestellt werden – wichtige Bereiche von Interesse, wie beispielsweise die Ecken eines Gebäudes, Gesichtszüge wie Augen und Nase oder die anatomischen Gelenke eines menschlichen Körpers. Im Gegensatz zur Verarbeitung jedes einzelnen Pixels in einem dichten Raster ermöglicht die Konzentration auf diese wenigen, semantisch reichhaltigen Punkte Modellen der künstlichen Intelligenz (KI) ein effizientes Verständnis der Geometrie, die Analyse von Formen und track mit hoher Präzision. Dieses Konzept ist grundlegend für fortgeschrittene Aufgaben, die ein strukturelles Verständnis des Objekts erfordern und nicht nur dessen Vorhandensein oder Position.
Schlüsselpunkte dienen als grundlegende Bausteine für die Abbildung der Struktur dynamischer Objekte. Wenn mehrere Schlüsselpunkte erkannt und miteinander verbunden werden, bilden sie ein Skelett oder Drahtgitter, das die Pose des Objekts darstellt. Dies wird am häufigsten bei der Posenschätzung angewendet, bei der Deep-Learning-Algorithmen (DL) die Position von Gelenken – Schultern, Ellbogen, Hüften und Knien – vorhersagen, um die Haltung von Menschen oder Tieren zu rekonstruieren.
Durch die Nutzung fortschrittlicher Architekturen wie dem Ultralytics können Systeme diese Koordinaten mit bemerkenswerter Geschwindigkeit direkt aus den Eingabebildern zurückverfolgen. Dieser Prozess beinhaltet eine komplexe Merkmalsextraktion, bei der das neuronale Netzwerk lernt, lokale Muster zu identifizieren, die unabhängig von Beleuchtung, Drehung und Skalierung sind. Da Schlüsselpunkte eine komprimierte Zusammenfassung des Zustands eines Objekts darstellen, sind sie rechnerisch effizient und eignen sich daher ideal für die Echtzeit-Inferenz auf Edge-Computing-Geräten.
Um den spezifischen Nutzen von Schlüsselpunkten zu verstehen, ist es hilfreich, sie mit anderen primären Computer-Vision-Aufgaben in der Ultralytics zu vergleichen:
Die Möglichkeit, bestimmte Punkte eines Themas track , öffnet die Tür zu vielfältigen Anwendungen in verschiedenen Branchen:
Moderne Bibliotheken machen es einfach, die Erkennung von Keypoints mit Hilfe von vortrainierten Modellen zu implementieren. Die
ultralytics Das Paket bietet sofortigen Zugriff auf modernste Modelle wie YOLO26 und
YOLO11, das anhand von Datensätzen wie
COCO oder
Tiger-Pose.
Das folgende Beispiel zeigt, wie man ein Posenschätzungsmodell lädt und die erkannten Schlüsselpunkte mit Python visualisiert :
from ultralytics import YOLO
# Load a pretrained YOLO26n-pose model
model = YOLO("yolo26n-pose.pt")
# Run inference on a local image
results = model("path/to/runner.jpg")
# Visualize the results, showing the skeletal keypoints
results[0].show()
In diesem Workflow gibt das Modell ein Ergebnisobjekt aus, das die Koordinaten und ein
Konfidenzniveau für jeden erkannten Punkt. Die Entwickler können
diese Rohdaten extrahieren x, y Werte, um eine benutzerdefinierte Logik zu erstellen, wie z. B. das Zählen von Wiederholungen in einer Fitnessanwendung oder
Steuerung einer Spielfigur über Bewegungserfassung.