Découvrez les points clés de la vision par ordinateur : l'estimation de la pose avec Ultralytics YOLO11 pour le fitness, la reconnaissance des gestes et le suivi rapide et précis.
Les points clés sont des emplacements spatiaux spécifiques et informatifs dans une image qui définissent les caractéristiques distinctives d'un objet ou d'une scène. Dans le domaine de la vision par ordinateur (CV), ces points, généralement représentés par des coordonnées X et Y, marquent des zones d'intérêt significatives, telles que les angles d'un bâtiment, les traits du visage comme les yeux et le nez, ou les articulations anatomiques du corps humain. Contrairement au traitement de chaque pixel dans une grille dense, le fait de se concentrer sur ces points clairsemés et riches en sémantique permet aux modèles d'intelligence artificielle (IA) de comprendre efficacement la géométrie, d'analyser les formes et track avec une grande précision. Ce concept est fondamental pour les tâches avancées qui nécessitent une compréhension structurelle du sujet plutôt que simplement sa présence ou son emplacement.
Les points clés servent de base pour cartographier la structure des objets dynamiques. Lorsque plusieurs points clés sont détectés et connectés, ils forment un graphe squelettique ou une structure filaire qui représente la pose de l'objet. Cette technique est le plus souvent appliquée à l'estimation de la pose, où des algorithmes d'apprentissage profond (DL) prédisent l'emplacement des articulations (épaules, coudes, hanches et genoux) afin de reconstruire la posture humaine ou animale.
En tirant parti d'architectures avancées telles que le modèle Ultralytics , les systèmes peuvent régresser ces coordonnées directement à partir des images d'entrée avec une vitesse remarquable. Ce processus implique une extraction de caractéristiques complexe, où le réseau neuronal apprend à identifier des modèles locaux invariants à l'éclairage, à la rotation et à l'échelle. Comme les points clés représentent un résumé condensé de l'état d'un objet, ils sont efficaces sur le plan informatique, ce qui les rend idéaux pour l' inférence en temps réel sur les dispositifs informatiques de pointe.
Pour comprendre l'utilité spécifique des points clés, il est utile de les comparer à d'autres tâches primaires de vision par ordinateur présentes dans la Ultralytics :
La possibilité de track points spécifiques sur un sujet ouvre la porte à diverses applications dans différents secteurs :
Les bibliothèques modernes facilitent la mise en œuvre de la détection des points clés à l'aide de modèles pré-entraînés. Les
ultralytics Le package fournit un accès instantané à des modèles de pointe tels que YOLO26 et
YOLO11, qui peut être entraîné sur des ensembles de données tels que
COCO ou
Posture du tigre.
L'exemple suivant montre comment charger un modèle d'estimation de pose et visualiser les points clés détectés à l'aide de Python:
from ultralytics import YOLO
# Load a pretrained YOLO26n-pose model
model = YOLO("yolo26n-pose.pt")
# Run inference on a local image
results = model("path/to/runner.jpg")
# Visualize the results, showing the skeletal keypoints
results[0].show()
Dans ce flux de travail, le modèle génère un objet résultat contenant les coordonnées et un
score de confiance pour chaque point détecté. Les développeurs peuvent
extraire ces données brutes x, y pour construire une logique personnalisée, telle que le comptage des répétitions dans une application de gymnastique ou le contrôle d'un personnage de jeu par l'intermédiaire d'un système d'information.
le contrôle d'un personnage de jeu par capture de mouvement.