Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Estimation de la pose

Découvrez l'estimation de la pose : comment fonctionnent les modèles de points clés (descendants ou ascendants), les utilisations concrètes dans les domaines de la santé et du sport, ainsi que les principaux avantages et défis.

L'estimation de la pose est une tâche de vision par ordinateur qui identifie la position et l'orientation d'une personne ou d'un objet en localisant des points clés, tels que des articulations, des points de repère ou d'autres caractéristiques distinctes. Le résultat est un ensemble de coordonnées qui peuvent être connectées pour former une structure squelettique, fournissant une compréhension détaillée de la posture et du mouvement d'un objet au sein d'une image ou d'une vidéo. Cette technologie est fondamentale pour les applications qui requièrent une connaissance des mouvements, des gestes ou des configurations corporelles spécifiques, du suivi de la condition physique à la robotique.

Comment fonctionne l'estimation de la pose

Les modèles d'estimation de la pose analysent les données visuelles pour prédire l'emplacement de points clés prédéfinis. Pour l'estimation de la pose humaine, il s'agit généralement des principales articulations telles que les épaules, les coudes, les hanches et les genoux. Ces points sont ensuite reliés pour créer un squelette, qui représente la structure du corps et la pose actuelle. Il existe deux méthodes principales pour ce processus :

  • Approche descendante : Cette méthode utilise d'abord un détecteur d'objets pour identifier et isoler chaque personne ou objet dans une image avec une boîte de délimitation. Elle analyse ensuite le contenu de chaque boîte individuellement pour localiser les points clés de cette instance spécifique. Bien qu'intuitive, sa performance dépend fortement de la détection initiale des objets.
  • Approche ascendante : Cette approche commence par la détection de tous les points clés sur l'ensemble de l'image (par exemple, tous les coudes et tous les genoux), puis regroupe ces points en squelettes distincts. Cette méthode peut être plus efficace dans les scènes très fréquentées, car son temps de traitement n'est pas lié au nombre de personnes présentes.

Les architectures modernes, telles que celles utilisées dans Ultralytics YOLO11, combinent souvent les points forts des deux approches pour parvenir à un équilibre entre vitesse et précision dans les applications en temps réel.

Estimation de la pose par rapport à d'autres tâches de vision par ordinateur

L'estimation de la pose offre un niveau d'analyse plus granulaire que d'autres tâches courantes de vision par ordinateur. Bien que liées, ces tâches ont des objectifs différents :

  • Détection d'objets se concentre sur l'identification et la localisation d'objets en dessinant une boîte rectangulaire autour d'eux. Elle répond aux questions "Quel est l'objet ?" et "Où est-il ?", mais ne fournit aucune information sur la posture ou l'articulation de l'objet.
  • Segmentation des instances va plus loin dans la détection en décrivant la forme précise de chaque objet au niveau du pixel. Cependant, comme la détection d'objets, elle ne décrit pas la configuration interne de l'objet.

L'estimation de la pose est unique dans sa capacité à interpréter la position et les mouvements d'un objet ou d'une personne, ce qui est essentiel pour mieux comprendre les actions et les comportements.

Applications concrètes

La capacité d'analyser les mouvements ouvre la voie à un large éventail d'applications dans de nombreuses industries.

  • L'IA dans les soins de santé et la physiothérapie : Les systèmes d'estimation de la pose permettent de surveiller les patients qui effectuent des exercices de rééducation, de s'assurer que la forme est correcte et de suivre les progrès au fil du temps. En analysant les mouvements d'un patient à l'aide d'une simple caméra, ces systèmes peuvent offrir un retour d'information en temps réel, contribuant ainsi à prévenir les blessures et à améliorer les résultats de la rééducation sans qu'il soit nécessaire de procéder à des évaluations manuelles.
  • Analyse du sport et de la condition physique: Les entraîneurs et les athlètes utilisent l'estimation de la pose pour effectuer une analyse biomécanique détaillée des mouvements. Par exemple, elle permet de suivre le swing d'un golfeur, la forme de tir d'un basketteur ou la démarche d'un coureur afin d'identifier les points à améliorer et de réduire le risque de blessure. Cette technologie est également intégrée dans les applications de suivi de l'entraînement pour guider les utilisateurs tout au long des exercices avec une technique appropriée.
  • Capture de mouvement et animation : Dans l'industrie du divertissement, l'estimation de la pose offre une alternative sans marqueur aux techniques traditionnelles de capture de mouvement, qui nécessitent souvent que les acteurs portent des combinaisons spéciales équipées de capteurs. Cela simplifie le processus d'animation des personnages numériques, le rendant plus accessible et plus efficace.
  • Surveillance du comportement des animaux: Les chercheurs utilisent l'estimation de la pose pour étudier les animaux dans leur habitat naturel sans utiliser de balises intrusives. En suivant les postures et les mouvements de différentes espèces, les scientifiques peuvent obtenir des informations sur les interactions sociales et d'autres comportements essentiels pour les efforts de conservation de la faune.

Principaux avantages et défis

L'estimation de la pose offre des avantages significatifs, mais elle présente également certaines limites.

Avantages

  • Rentable : Il s'appuie sur des caméras standard, ce qui élimine le besoin de matériel ou de capteurs spécialisés et coûteux.
  • Non invasif : il permet de suivre les mouvements des personnes et des animaux sans marqueurs physiques ou étiquettes.
  • Des données riches : Il fournit des informations détaillées sur la posture et le mouvement qui ne sont pas disponibles dans d'autres tâches de vision par ordinateur.

Défis

  • Occlusion : La précision peut diminuer de manière significative lorsque des parties du corps sont masquées ou se superposent à d'autres objets ou personnes.
  • Facteurs environnementaux : Les mauvaises conditions d'éclairage, le flou de mouvement et les arrière-plans encombrés peuvent avoir un impact négatif sur les performances du modèle.
  • Exigences en matière de données : La formation de modèles précis nécessite des ensembles de données importants et diversifiés, tels que l'ensemble de données COCO-Pose, et les modèles peuvent ne pas bien se généraliser aux poses ou aux sujets qui ne sont pas bien représentés dans les données de formation.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers