Découvrez comment les points clés définissent la géométrie et la posture des objets dans l'IA. Explorez l'estimation de la posture avec Ultralytics et lancez-vous avec notre Python facile à utiliser.
Les points clés sont des emplacements spatiaux distincts ou des repères dans une image qui définissent les caractéristiques significatives d'un objet ou d'un sujet. Dans le contexte de la vision par ordinateur et de l'apprentissage automatique, un point clé est généralement représenté par un ensemble de coordonnées (X, Y) qui identifient une partie spécifique d'un objet, telle que le coude d'une personne, l'angle d'un bâtiment ou le centre d'une roue de voiture. Contrairement à des tâches plus simples qui identifient uniquement la présence d'un objet, l'identification des points clés permet aux modèles d'intelligence artificielle (IA) de comprendre la géométrie, la posture et la disposition structurelle du sujet. Cette capacité est fondamentale pour l' analyse visuelle avancée, car elle permet aux machines d'interpréter le langage corporel, track des mouvements track et d'aligner des superpositions numériques avec des objets du monde réel.
Les points clés servent de données fondamentales pour l' estimation de la posture, une technique qui cartographie la structure squelettique d'un être humain ou d'un animal. En détectant un ensemble prédéfini de points, tels que les épaules, les genoux et les chevilles, les algorithmes peuvent reconstruire la posture complète d'un sujet en temps réel. Ce processus va au-delà de la détection standard d' objets, qui génère généralement un cadre de sélection autour d'un objet sans comprendre sa forme interne.
Les architectures modernes, telles que le modèle de pointe Ultralytics , ont évolué pour prédire ces points clés avec une grande précision et rapidité. Ces modèles utilisent des réseaux d'apprentissage profond (DL) entraînés sur des ensembles de données annotés massifs, tels que COCO , afin d'apprendre les modèles visuels associés aux articulations et aux traits du visage. Lors de l'inférence, le modèle effectue une régression des coordonnées pour chaque point clé, en incluant souvent un score de confiance pour indiquer la fiabilité de la prédiction.
Il est utile de distinguer les points clés des autres résultats courants de la vision par ordinateur afin de comprendre leur utilité unique :
La capacité à track des parties track du corps ou des caractéristiques d'objets ouvre la voie à diverses applications dans tous les secteurs :
À l'aide de la Ultralytics ou du Python , les développeurs peuvent facilement mettre en œuvre la détection des points clés. L'exemple suivant montre comment charger un modèle YOLO26-pose pré-entraîné et exécuter une inférence sur une image afin de detect les squelettes detect .
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results showing detected keypoints and skeletons
for result in results:
result.show() # Display the image with keypoints drawn
# Access keypoint coordinates (x, y, confidence)
keypoints = result.keypoints.data
print(f"Detected keypoints shape: {keypoints.shape}")
Ce flux de travail simple permet le déploiement rapide d'applications sophistiquées de vision par ordinateur (CV). Pour les utilisateurs qui souhaitent former leurs propres modèles de points clés personnalisés, par exemple pour detect des points detect sur des machines industrielles ou des espèces animales, la Ultralytics simplifie le processus d'annotation des données et de formation des modèles dans le cloud.
Pour réussir le déploiement de la détection des points clés, il faut relever des défis tels que l'occlusion (lorsqu'une partie du corps est cachée) et les conditions d'éclairage variées. Les modèles modernes y parviennent grâce à une augmentation robuste des données pendant la formation, exposant le réseau à des scénarios variés. De plus, l'intégration des points clés aux algorithmes de suivi des objets permet une identification cohérente des individus au fil du temps dans les flux vidéo, ce qui est essentiel pour des applications telles que la sécurité ou l'analyse comportementale .