Découvrez comment l'estimation de pose utilise des points clés pour track . Explorez des applications concrètes et lancez-vous avec Ultralytics pour obtenir des résultats rapides et précis.
L'estimation de la pose est une technique spécialisée de vision par ordinateur qui va au-delà de la simple détection de la présence d'objets pour comprendre leur structure géométrique et leur orientation physique. Alors que la détection standard des objets consiste à tracer un simple rectangle autour d'un sujet, l'estimation de la pose identifie des points sémantiques spécifiques, appelés points clés, tels que les articulations du corps humain (coudes, genoux, épaules) ou les angles structurels d'un véhicule. En cartographiant ces repères, les modèles d'apprentissage automatique peuvent reconstruire une représentation squelettique du sujet, permettant ainsi aux systèmes d'interpréter le langage corporel, la dynamique des mouvements et le positionnement précis dans un espace 2D ou 3D.
L'estimation moderne des poses repose largement sur des architectures sophistiquées d'apprentissage profond, utilisant souvent des réseaux neuronaux convolutifs (CNN) pour traiter les données visuelles. Les algorithmes suivent généralement l'une des deux stratégies principales pour identifier les points clés :
Les modèles de pointe tels que YOLO26 utilisent des architectures de bout en bout avancées qui équilibrent ces besoins, fournissant une estimation de pose à grande vitesse adaptée au déploiement sur des appareils IA de pointe et des plateformes mobiles.
Il est utile de différencier l'estimation de la pose des autres tâches de reconnaissance visuelle afin de comprendre sa valeur unique dans les flux de travail de la vision par ordinateur:
La capacité à numériser les mouvements humains et ceux des objets a conduit à des applications transformatrices dans divers secteurs, souvent entraînées à l'aide d'outils tels que la Ultralytics pour gérer de grands ensembles de données de points clés annotés.
Dans le domaine médical, l'IA dans les soins de santé utilise l' estimation de la posture pour surveiller à distance la rééducation des patients. En suivant les angles articulaires et l'amplitude des mouvements, les systèmes automatisés peuvent garantir que les patients effectuent correctement leurs exercices de physiothérapie à domicile. Cela réduit le risque de nouvelle blessure et permet aux cliniciens de quantifier les progrès de la guérison sans avoir besoin d'équipements de laboratoire coûteux.
Les entraîneurs et les athlètes exploitent l' analyse sportive pour optimiser leurs performances. Les modèles d'estimation de la posture permettent d'analyser le plan de swing d'un golfeur, la longueur de foulée d'un coureur ou la biomécanique d'un lanceur sans avoir recours aux combinaisons de marqueurs intrusives utilisées dans la capture de mouvement traditionnelle . Cela fournit un retour d'information immédiat, basé sur des données, afin d'améliorer la technique et de prévenir les blessures liées à une utilisation excessive.
Dans les environnements commerciaux, l'IA dans les systèmes de vente au détail utilise la détection de posture pour comprendre le comportement des clients, par exemple lorsqu'ils cherchent à atteindre des produits sur des étagères en hauteur ou s'attardent dans des allées spécifiques . Ces données permettent d'optimiser l'agencement des magasins et d'améliorer la gestion des stocks en établissant une corrélation entre les actions physiques et les décisions d'achat.
La mise en œuvre de l'estimation de la pose est simple avec les technologies modernes. Python cadres.
L'exemple suivant montre comment utiliser le ultralytics paquet pour charger un modèle pré-entraîné
YOLO26 modèle (le successeur de
YOLO11) et detect les points clés detect dans une image.
from ultralytics import YOLO
# Load the YOLO26 pose model (nano version for speed)
model = YOLO("yolo26n-pose.pt")
# Perform inference on an image source
# The model identifies bounding boxes and specific keypoints (joints)
results = model("https://ultralytics.com/images/bus.jpg")
# Print the xy coordinates of detected keypoints
print(results[0].keypoints.xy)
# Visualize the skeletal results directly
results[0].show()