Erfahren Sie, wie Schlüsselpunkte die Objektgeometrie und -haltung in der KI definieren. Entdecken Sie die Posenschätzung mit Ultralytics und legen Sie los mit unserem benutzerfreundlichen Python .
Schlüsselpunkte sind bestimmte räumliche Positionen oder Orientierungspunkte innerhalb eines Bildes, die wichtige Merkmale eines Objekts oder Motivs definieren. Im Zusammenhang mit Computer Vision und maschinellem Lernen wird ein Schlüsselpunkt in der Regel durch einen Satz von Koordinaten (X, Y) dargestellt, die einen bestimmten Teil eines Objekts genau lokalisieren, beispielsweise den Ellbogen einer Person, die Ecke eines Gebäudes oder die Mitte eines Autorads. Im Gegensatz zu einfacheren Aufgaben, bei denen nur das Vorhandensein eines Objekts identifiziert wird, ermöglicht die Identifizierung von Schlüsselpunkten Modellen der künstlichen Intelligenz (KI), die Geometrie, Haltung und strukturelle Anordnung des Subjekts zu verstehen. Diese Fähigkeit ist grundlegend für die fortgeschrittene visuelle Analyse und ermöglicht es Maschinen, Körpersprache zu interpretieren, track Bewegungen track und digitale Überlagerungen mit Objekten der realen Welt abzugleichen.
Schlüsselpunkte dienen als grundlegende Daten für die Posenabschätzung, eine Technik, die die Skelettstruktur eines Menschen oder Tieres abbildet. Durch die Erkennung einer vordefinierten Reihe von Punkten – wie Schultern, Knien und Knöcheln – können Algorithmen die gesamte Pose eines Subjekts in Echtzeit rekonstruieren. Dieser Prozess geht über die Standard-Objekterkennung hinaus , die in der Regel einen Begrenzungsrahmen um ein Objekt ausgibt, ohne dessen innere Form zu verstehen.
Moderne Architekturen, wie das hochmoderne Ultralytics , wurden entwickelt, um diese Schlüsselpunkte mit hoher Genauigkeit und Geschwindigkeit vorherzusagen. Diese Modelle nutzen Deep-Learning-Netzwerke (DL), die auf riesigen annotierten Datensätzen wie COCO trainiert wurden, um die visuellen Muster zu lernen, die mit Gelenken und Gesichtsmerkmalen verbunden sind. Während der Inferenz regressiert das Modell die Koordinaten für jeden Schlüsselpunkt, oft einschließlich einer Konfidenzbewertung, um die Zuverlässigkeit der Vorhersage anzuzeigen.
Es ist hilfreich, Keypoints von anderen gängigen Computer-Vision-Ergebnissen zu unterscheiden, um ihren einzigartigen Nutzen zu verstehen:
Die Möglichkeit, track Körperteile oder Objektmerkmale zu track , eröffnet vielfältige Anwendungsmöglichkeiten in verschiedenen Branchen:
Mit der Ultralytics oder dem Python können Entwickler auf einfache Weise die Erkennung von Schlüsselpunkten implementieren. Das folgende Beispiel zeigt, wie ein vortrainiertes YOLO26-Pose-Modell geladen und eine Inferenz auf ein Bild angewendet wird, um menschliche Skelette detect
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results showing detected keypoints and skeletons
for result in results:
result.show() # Display the image with keypoints drawn
# Access keypoint coordinates (x, y, confidence)
keypoints = result.keypoints.data
print(f"Detected keypoints shape: {keypoints.shape}")
Dieser einfache Arbeitsablauf ermöglicht die schnelle Bereitstellung anspruchsvoller Computer-Vision-Anwendungen (CV). Für Anwender, die ihre eigenen benutzerdefinierten Keypoint-Modelle trainieren möchten – beispielsweise um detect Punkte an Industriemaschinen oder Tierarten detect – vereinfacht die Ultralytics den Prozess der Datenannotation und des Modelltrainings in der Cloud.
Die erfolgreiche Implementierung der Keypoint-Erkennung erfordert die Bewältigung von Herausforderungen wie Okklusion (wenn ein Körperteil verdeckt ist) und unterschiedlichen Lichtverhältnissen. Moderne Modelle begegnen diesem Problem durch eine robuste Datenvergrößerung während des Trainings, wodurch das Netzwerk unterschiedlichen Szenarien ausgesetzt wird. Darüber hinaus ermöglicht die Integration von Keypoints mit Objektverfolgungsalgorithmen eine konsistente Identifizierung von Personen über einen längeren Zeitraum in Videostreams, was für Anwendungen wie Sicherheit oder Verhaltensanalyse unerlässlich ist .