Keypoints
Lerne, wie Keypoints die Objektgeometrie und Haltung in der KI definieren. Erforsche Pose Estimation mit Ultralytics YOLO26 und lege mit unserem benutzerfreundlichen Python SDK los.
Keypoints sind spezifische räumliche Positionen oder Orientierungspunkte innerhalb eines Bildes, die wesentliche Merkmale eines Objekts oder Subjekts definieren. Im Kontext von Computer Vision und Machine Learning wird ein Keypoint typischerweise durch ein Koordinatenpaar (X, Y) repräsentiert, das einen bestimmten Teil eines Objekts präzise bestimmt, wie etwa den Ellbogen einer Person, die Ecke eines Gebäudes oder den Mittelpunkt eines Autorads. Im Gegensatz zu einfacheren Aufgaben, bei denen lediglich das Vorhandensein eines Objekts festgestellt wird, ermöglicht die Identifizierung von Keypoints künstlicher Intelligenz (KI)-Modellen, die Geometrie, Körperhaltung und strukturelle Anordnung des Subjekts zu verstehen. Diese Fähigkeit ist grundlegend für fortgeschrittene visuelle Analysen und ermöglicht es Maschinen, Körpersprache zu interpretieren, präzise Bewegungen zu verfolgen und digitale Overlays mit Objekten in der realen Welt abzugleichen.
Link to this sectionDie Rolle von Keypoints in KI-Modellen#
Keypoints dienen als grundlegende Daten für die Pose Estimation, eine Technik, die die Skelettstruktur eines Menschen oder Tieres abbildet. Durch das Erkennen einer vordefinierten Menge an Punkten – wie Schultern, Knie und Knöchel – können Algorithmen die vollständige Körperhaltung eines Subjekts in Echtzeit rekonstruieren. Dieser Prozess geht über die standardmäßige Objekterkennung hinaus, die normalerweise nur einen Bounding Box um ein Objekt ausgibt, ohne dessen innere Form zu verstehen.
Moderne Architekturen wie das hochmoderne Ultralytics YOLO26 wurden entwickelt, um diese Keypoints mit hoher Genauigkeit und Geschwindigkeit vorherzusagen. Diese Modelle nutzen Deep Learning (DL)-Netzwerke, die auf massiven annotierten Datensätzen wie COCO Keypoints trainiert wurden, um die visuellen Muster zu erlernen, die mit Gelenken und Gesichtsmerkmalen assoziiert sind. Während der Inferenz regrediert das Modell die Koordinaten für jeden Keypoint und fügt oft einen Konfidenzwert hinzu, um die Zuverlässigkeit der Vorhersage anzugeben.
Link to this sectionKeypoints vs. verwandte Konzepte#
Es ist hilfreich, Keypoints von anderen gängigen Computer-Vision-Ausgaben zu unterscheiden, um ihren einzigartigen Nutzen zu verstehen:
- Keypoints vs. Bounding Boxes: Eine Bounding Box bietet eine grobe Lokalisierung, indem sie das gesamte Objekt in ein Rechteck einschließt. Keypoints bieten eine feingranulare Lokalisierung spezifischer Teile innerhalb dieses Objekts.
- Keypoints vs. Bildsegmentierung: Bildsegmentierung klassifiziert jedes Pixel, um eine präzise Maske der Objektform zu erstellen. Während die Segmentierung detaillierte Informationen über Begrenzungen bietet, liefern Keypoints eine strukturelle Zusammenfassung (ein "Skelett"), die für die Analyse von Bewegung und Kinematik oft effizienter ist.
- Keypoints vs. Feature Descriptors: In der traditionellen Bildverarbeitung wie SIFT (Scale-Invariant Feature Transform) sind Keypoints Punkte von Interesse (Ecken, Blobs), die für den Bildabgleich verwendet werden. In der modernen DL-Pose-Estimation sind Keypoints semantische Labels (z. B. "linkes Handgelenk"), die vom Netzwerk erlernt wurden.
Link to this sectionPraxisanwendungen#
Die Fähigkeit, spezifische Körperteile oder Objektmerkmale zu verfolgen, eröffnet vielfältige Anwendungen in verschiedenen Branchen:
- Sportanalyse: Trainer und Athleten nutzen Pose Estimation zur Analyse der Biomechanik. Durch die Verfolgung von Keypoints an Gelenken können Systeme Winkel und Geschwindigkeiten berechnen, um die Technik in Sportarten wie Golf, Tennis oder Sprint zu verbessern. Sieh dir an, wie Ultralytics YOLO-Modelle Golfschwünge verfolgen, um direkt anwendbares Feedback zu liefern.
- Gesundheitswesen und Rehabilitation: Physiotherapie-Plattformen nutzen Keypoints, um Patientenübungen aus der Ferne zu überwachen. Das System stellt sicher, dass Patienten während der Rehabilitationsroutinen die korrekte Form beibehalten, was das Verletzungsrisiko verringert und den Genesungsfortschritt verfolgt.
- Augmented Reality (AR): Social-Media-Filter und virtuelle Anprobe-Anwendungen verlassen sich auf Gesichts-Keypoints (Augen-, Nasen-, Mundkonturen), um digitale Masken oder Brillen sicher am Gesicht eines Nutzers zu verankern und die Ausrichtung beizubehalten, selbst wenn sich der Nutzer bewegt.
- Fahrerüberwachung: Fahrzeugsicherheitssysteme verfolgen Gesichtsmerkmale, um Anzeichen von Müdigkeit oder Ablenkung zu erkennen, und warnen den Fahrer, wenn seine Augen geschlossen sind oder seine Kopfposition auf einen Mangel an Aufmerksamkeit hindeutet.
Link to this sectionImplementierung der Keypoint-Erkennung mit YOLO26#
Mit der Ultralytics Platform oder dem Python SDK können Entwickler die Keypoint-Erkennung einfach implementieren. Das folgende Beispiel demonstriert, wie du ein vortrainiertes YOLO26-Pose-Modell lädst und eine Inferenz auf einem Bild ausführst, um menschliche Skelette zu erkennen.
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results showing detected keypoints and skeletons
for result in results:
result.show() # Display the image with keypoints drawn
# Access keypoint coordinates (x, y, confidence)
keypoints = result.keypoints.data
print(f"Detected keypoints shape: {keypoints.shape}")Dieser einfache Arbeitsablauf ermöglicht die schnelle Bereitstellung anspruchsvoller Computer Vision (CV)-Anwendungen. Für Nutzer, die ihre eigenen benutzerdefinierten Keypoint-Modelle trainieren möchten – zum Beispiel, um spezifische Punkte an Industriemaschinen oder Tierarten zu erkennen – vereinfacht die Ultralytics Platform den Prozess der Datenannotation und des Modelltrainings in der Cloud.
Link to this sectionFortgeschrittene Überlegungen#
Die erfolgreiche Bereitstellung der Keypoint-Erkennung erfordert den Umgang mit Herausforderungen wie Okklusion (wenn ein Körperteil verdeckt ist) und unterschiedlichen Lichtverhältnissen. Moderne Modelle gehen dies durch robuste Data Augmentation während des Trainings an, wodurch das Netzwerk mit verschiedenen Szenarien konfrontiert wird. Darüber hinaus ermöglicht die Integration von Keypoints mit Object Tracking-Algorithmen eine konsistente Identifizierung von Individuen über die Zeit in Videostreams, was für Anwendungen wie Sicherheit oder Verhaltensanalyse unerlässlich ist.






