Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Qu'est-ce que l'estimation de pose et où peut-elle être utilisée ?

Abirami Vina

5 min de lecture

7 mai 2025

Découvrez comment fonctionne l'estimation de pose, ses applications concrètes et comment les modèles tels qu'Ultralytics YOLO11 permettent aux machines d'interpréter les mouvements et la posture du corps.

Lorsque vous voyez quelqu'un avachi ou se tenir droit avec les épaules en arrière, il est immédiatement clair s'il a une mauvaise posture ou une posture confiante. Personne n'a besoin de vous l'expliquer. C'est parce qu'au fil du temps, nous avons naturellement appris à interpréter le langage corporel. 

Grâce à l'expérience et à l'observation, notre cerveau est devenu très doué pour reconnaître la posture de divers objets, y compris les humains. Grâce aux récentes avancées de l'intelligence artificielle (IA) et de la vision par ordinateur, un domaine qui permet aux machines d'interpréter les informations visuelles du monde, les machines commencent maintenant à apprendre et à reproduire cette capacité.

L'estimation de pose est une tâche de vision par ordinateur qui aide les machines à déterminer la position et l'orientation d'une personne ou d'un objet en regardant des images ou des vidéos. Elle le fait en identifiant les points clés du corps, comme les articulations et les membres, pour comprendre comment quelqu'un, ou même quelque chose, se déplace. 

Cette technologie est largement utilisée dans des domaines tels que le fitness, la santé et l'animation. Dans les environnements de travail, par exemple, elle peut être utilisée pour surveiller la posture des employés et soutenir les initiatives de sécurité et de bien-être. Les modèles de vision par ordinateur comme Ultralytics YOLO11 rendent cela possible en estimant les poses humaines en temps réel.

Fig 1. Un exemple d'utilisation de YOLO11 pour surveiller la posture des travailleurs.

Dans cet article, nous allons examiner de plus près l'estimation de pose et son fonctionnement, ainsi que des cas d'utilisation concrets où elle fait la différence. Commençons !

L'évolution de l'estimation de pose

La recherche sur l'estimation de pose a commencé à la fin des années 1960 et 1970. Au fil des ans, les approches de cette tâche de vision par ordinateur sont passées des mathématiques et de la géométrie de base à des méthodes plus avancées basées sur l'intelligence artificielle.

Initialement, les techniques dépendaient d'angles de caméra fixes et de points de référence connus. Plus tard, elles ont évolué pour inclure des modèles 3D et la correspondance de caractéristiques. Aujourd'hui, les modèles d'apprentissage profond comme YOLO11 peuvent détecter les positions du corps en temps réel à partir d'images ou de vidéos, ce qui rend l'estimation de la pose plus rapide et plus précise que jamais.

Avec l'amélioration de la technologie, les chercheurs ont constaté les applications potentielles de la surveillance et du suivi des poses de divers objets, en particulier les humains et les animaux. L'estimation de pose est particulièrement importante, car elle permet aux outils d'IA de comprendre et de mesurer la posture et le mouvement d'une manière qui n'était pas possible auparavant. 

Par exemple, elle permet aux ordinateurs de reconnaître les gestes pour une interaction mains libres, analyse les mouvements des athlètes pour améliorer leurs performances, alimente des animations réalistes dans les jeux vidéo et soutient même les soins de santé en suivant les progrès de la guérison des patients.

En quoi est-ce différent des autres tâches de vision par ordinateur ?

L'estimation de pose est différente des autres tâches de vision par ordinateur telles que la détection d'objets et la segmentation d'instance. Ces tâches se concentrent principalement sur l'identification et la localisation d'objets dans une image. 

La détection d'objets, par exemple, dessine des boîtes englobantes autour d'éléments tels que des personnes, des véhicules ou des animaux pour indiquer leur présence et leur position. La segmentation d'instance va encore plus loin en délimitant la forme précise de chaque objet au niveau du pixel.

Cependant, ces deux méthodes se concentrent principalement sur ce qu'est l'objet et où il se trouve - elles ne fournissent aucune information sur la façon dont l'objet est positionné ou sur ce qu'il pourrait faire. C'est là que l'estimation de la pose devient cruciale. 

En identifiant les points clés du corps, tels que les coudes, les genoux ou même une queue, l'estimation de pose peut interpréter la posture et le mouvement. Cela permet une compréhension plus approfondie des actions, des gestes et de la dynamique corporelle, y compris le mouvement dans l'espace 3D.

Comprendre le fonctionnement de l'estimation de pose

Les modèles d'estimation de pose suivent généralement deux approches principales : ascendante et descendante. Dans l'approche ascendante, le modèle détecte d'abord les points clés individuels, comme les coudes, les genoux ou les épaules, puis les regroupe pour déterminer à quelle personne ou à quel objet ils appartiennent. En revanche, l'approche descendante commence par détecter chaque objet (comme une personne dans l'image), puis localise les points clés de cet objet spécifique.

Fig 2. Méthodes d'estimation de pose ascendante (bottom-up) vs. descendante (top-down).

Certains modèles plus récents, tels que YOLO11, combinent les avantages des deux approches. Ils conservent l'efficacité de la méthode ascendante en évitant l'étape de regroupement manuel, tout en tirant parti de la précision des systèmes descendants en détectant les personnes et en estimant leurs poses simultanément, dans un processus unique et rationalisé.

Entraînement personnalisé de YOLO11 pour l'estimation de pose

Alors que nous expliquons le fonctionnement des modèles d'estimation de pose, vous vous demandez peut-être : comment ces modèles apprennent-ils réellement à estimer la pose de différents objets ? C'est là qu'intervient l'idée de la formation personnalisée.

L'entraînement personnalisé signifie apprendre à un modèle à reconnaître des points clés spécifiques en utilisant vos propres données. Étant donné que la construction d'un modèle à partir de zéro nécessite une grande quantité d'images étiquetées et un temps considérable, de nombreuses personnes optent pour l'apprentissage par transfert. Cela implique de commencer avec un modèle qui a déjà été entraîné sur un grand ensemble de données, tel que le modèle d'estimation de pose YOLO11, qui est pré-entraîné sur l'ensemble de données COCO-Pose, puis de l'affiner avec vos propres données pour une tâche ou un cas d'utilisation spécifique.

Supposons que vous travailliez avec des postures de yoga : vous pouvez affiner YOLO11 en utilisant des images où chaque posture est étiquetée avec des points clés spécifiques à cette activité. Pour ce faire, vous aurez besoin d'un ensemble de données personnalisé d'images annotées à partir duquel le modèle pourra apprendre. 

Pendant l'entraînement, vous pouvez ajuster des paramètres tels que la taille du lot (le nombre d'images traitées simultanément), le taux d'apprentissage (la vitesse à laquelle le modèle met à jour son apprentissage) et le nombre d'époques (le nombre de fois où le modèle parcourt l'ensemble de données) afin d'améliorer la précision. Il est ainsi beaucoup plus facile de construire des modèles d'estimation de pose adaptés à vos besoins spécifiques.

Applications concrètes de l'estimation de pose

Maintenant que nous avons expliqué ce qu'est l'estimation de pose et comment elle fonctionne, examinons de plus près certains de ses cas d'utilisation concrets.

Utilisation de l'estimation de pose pour la physiothérapie 

L'estimation de pose devient progressivement un outil fiable dans le secteur de la santé, en particulier en physiothérapie. Grâce à l'IA et à la vision par ordinateur, ces systèmes peuvent suivre la posture et les mouvements en temps réel et fournir un retour d'information, semblable à ce qu'un physiothérapeute pourrait offrir. 

Par exemple, un patient se remettant d'une opération au genou peut utiliser un système d'estimation de pose pour s'assurer qu'il effectue correctement ses exercices de rééducation. Le système peut repérer tout mouvement incorrect et offrir des suggestions d'amélioration, aidant ainsi le patient à rester sur la bonne voie et à éviter les blessures.

Fig 3. Un exemple d'utilisation de YOLO11 pour la physiothérapie.

Au-delà de la rééducation, l'estimation de la pose fait également son chemin dans les applications de fitness. Par exemple, une personne qui s'entraîne à la maison peut utiliser l'application pour vérifier sa posture pendant les exercices. L'application peut donner un retour d'information en temps réel, comme ajuster l'angle d'un squat ou s'assurer que votre dos est droit pendant un soulevé de terre. Cela aide les utilisateurs à améliorer leur posture et à prévenir les blessures sans avoir besoin d'un entraîneur.

Capture de mouvement pour le divertissement grâce à l'estimation de pose

L'estimation de pose a transformé la façon dont la capture de mouvement fonctionne dans le domaine du divertissement, la rendant plus simple et plus accessible. Auparavant, la capture de mouvement nécessitait de placer des marqueurs sur le corps d'une personne et de les suivre avec des caméras spéciales, ce qui pouvait s'avérer délicat et coûteux. 

Désormais, grâce aux progrès de l'IA et de la vision par ordinateur, nous pouvons utiliser des caméras et des algorithmes classiques pour suivre les mouvements du corps sans avoir besoin de marqueurs, ce qui rend le processus plus efficace et précis, même en temps réel.

Un excellent exemple de ceci est l'AR (Réalité Augmentée) Poser de Disney. Cet outil amusant vous permet de prendre une photo avec votre téléphone et de faire en sorte qu'un personnage numérique copie votre pose en réalité augmentée. Il fonctionne en analysant votre pose sur la photo et en la faisant correspondre à un personnage 3D, créant ainsi un selfie AR amusant et personnalisé. 

Fig 4. Un personnage en RA imite la pose d'une personne grâce à l'estimation de pose.

Recherche sur le comportement social basée sur l'estimation de la pose animale

L'étude du comportement animal aide les scientifiques à comprendre comment les animaux communiquent, trouvent des partenaires, s'occupent de leurs petits et vivent en groupe. Ces connaissances sont essentielles pour protéger la faune et acquérir une compréhension plus approfondie du monde naturel.

L'estimation de pose simplifie ce processus en suivant les mouvements des animaux et leur posture à l'aide d'images et de vidéos, sans fixer de capteurs ou d'étiquettes sur les animaux. Ces systèmes peuvent surveiller automatiquement leurs poses, fournissant ainsi des informations sur des comportements tels que le toilettage, le jeu ou les combats. 

Les scientifiques qui utilisent l'estimation de la pose pour étudier le comportement des grands singes en sont un exemple intéressant. En fait, les chercheurs ont compilé des ensembles de données comme OpenApePose, qui contient plus de 71 000 images étiquetées de six espèces de singes. 

Fig 5. Estimation de la pose d'un singe.

Avantages et inconvénients de l'estimation de pose

Voici quelques-uns des principaux avantages que l'estimation de pose peut apporter à divers secteurs :

  • Scalabilité: Les systèmes d'estimation de pose peuvent être déployés sur une large gamme d'appareils, des smartphones aux configurations de caméras avancées, ce qui les rend hautement scalables et accessibles pour différents cas d'utilisation et environnements.

  • Rentable : Étant donné que l'estimation de pose repose sur des caméras ordinaires et ne nécessite pas de capteurs ou d'étiquettes coûteux, elle peut être une solution plus économique pour suivre les mouvements dans les applications de recherche et commerciales.

  • Surveillance continue : Les systèmes d'estimation de pose peuvent fournir un suivi continu en temps réel, permettant de surveiller les changements au fil du temps, que ce soit pour les progrès d'un patient en rééducation ou pour le suivi du comportement animal dans la nature.

Bien que les avantages de l'estimation de pose soient clairs dans divers domaines, il y a aussi quelques défis à prendre en compte. Voici quelques limitations clés à garder à l'esprit :

  • Généralisation limitée : De nombreux modèles entraînés sur des ensembles de données humains ne se généralisent pas bien aux animaux ou aux structures corporelles rares sans un nouvel entraînement sur des ensembles de données spécifiques.

  • Limitations environnementales : Les performances peuvent se dégrader en cas de faible éclairage, de flou de mouvement rapide ou d'arrière-plans encombrés.
  • Forte sensibilité à l'occlusion : La précision peut diminuer lorsque des parties du corps sont bloquées ou hors du cadre, en particulier dans les scènes encombrées ou le suivi de plusieurs personnes.

Principaux points à retenir

L'estimation de pose a parcouru un long chemin depuis ses débuts, passant de systèmes utilisant des marqueurs à des outils percutants basés sur des modèles d'apprentissage profond comme YOLO11. Qu'il s'agisse d'améliorer la physiothérapie, d'alimenter des expériences de réalité augmentée interactives ou d'aider à la recherche sur la faune, l'estimation de pose change la façon dont les machines comprennent le mouvement et la posture. Au fur et à mesure que la technologie progresse, il sera essentiel de s'attaquer à ses limites pour débloquer des utilisations encore plus pratiques et améliorer la capacité des machines à comprendre comment nous et les autres êtres vivants nous déplaçons.

L'IA vous intéresse ? Explorez notre dépôt GitHub, connectez-vous avec notre communauté et consultez nos options de licence pour démarrer votre projet de vision par ordinateur. Apprenez-en davantage sur les innovations telles que l'IA dans le commerce de détail et la vision par ordinateur dans le secteur de la logistique sur nos pages de solutions.

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers