Le guide ultime des outils d'estimation de pose
Apprends comment les outils d'estimation de pose peuvent être utilisés pour détecter les points clés du corps dans les images et les vidéos, estimer des poses 2D et 3D, et alimenter diverses applications de Vision AI.

En tant qu'humains, nous interprétons le mouvement par instinct. Quand quelqu'un se penche en avant, tourne la tête ou lève un bras, tu peux immédiatement déduire ce qu'il est en train de faire. C'est une compétence silencieuse, presque inconsciente, qui façonne la manière dont nous interagissons avec les gens et explorons le monde.
À mesure que la technologie prend une place plus importante dans notre quotidien, il est naturel de vouloir que nos appareils comprennent le mouvement aussi facilement que nous. Les progrès récents en intelligence artificielle, en particulier ceux basés sur l'apprentissage profond, rendent cela possible. La vision par ordinateur aide notamment les machines à extraire du sens des images et des vidéos, et c'est ce qui stimule cette avancée.
Par exemple, l'estimation de pose est une tâche courante en vision par ordinateur qui prédit l'emplacement de points clés corporels prédéfinis (comme les épaules, les coudes, les hanches et les genoux) dans une image ou une vidéo. Ces points clés peuvent être reliés à l'aide d'une définition de squelette fixe pour former une représentation simplifiée de la pose.
Des modèles de vision par ordinateur tels qu'Ultralytics YOLO11 et le futur Ultralytics YOLO26 prennent en charge des tâches comme l'estimation de pose et peuvent être utilisés pour alimenter des applications en temps réel, notamment pour la correction de posture dans le fitness et le sport, la surveillance de la sécurité et les expériences de réalité augmentée interactive.

Fig 1. Aperçu de l'utilisation d'Ultralytics YOLO11 pour l'estimation de pose (Source)
Dans cet article, nous allons explorer en profondeur les outils d'estimation de pose et voir comment ils fonctionnent, où ils sont utilisés, ainsi que quelques-uns des meilleurs modèles et bibliothèques disponibles aujourd'hui. Commençons !
Link to this sectionQu'est-ce que l'estimation de pose ?#
L'estimation de pose est une technique de vision par ordinateur qui aide un système à comprendre comment une personne ou un objet est positionné dans une image ou une vidéo. Au lieu d'analyser chaque pixel de manière identique, elle prédit un ensemble de points de repère cohérents, tels que la tête, les épaules, les coudes, les hanches, les genoux et les chevilles.
La plupart des modèles renvoient les coordonnées de ces points clés ainsi qu'un score indiquant la probabilité que chaque prédiction soit correcte. Ces points clés peuvent ensuite être connectés à l'aide d'un squelette prédéfini pour former une représentation simple de la pose.
Appliqués image par image dans des vidéos, les points clés résultants peuvent être associés au fil du temps pour estimer le mouvement. Cela permet des applications comme la vérification de la forme, l'analyse du mouvement et l'interaction basée sur les gestes.

Fig 2. Un exemple d'estimation de pose (Source)
Link to this sectionLe besoin d'outils d'estimation de pose#
Le mouvement humain contient énormément d'informations. La façon dont quelqu'un se penche, tend le bras ou déplace son poids peut révéler une intention, un effort, de la fatigue ou même un risque de blessure. Jusqu'à récemment, capturer ce niveau de détail nécessitait généralement des capteurs spécialisés, des combinaisons de capture de mouvement ou des environnements de laboratoire contrôlés.
L'estimation de pose change la donne. Extraire les points clés du corps à partir d'images et de vidéos ordinaires permet aux ordinateurs d'analyser le mouvement en utilisant des caméras standard. Cela rend l'analyse du mouvement plus accessible, évolutive et pratique pour une utilisation dans des situations réelles.
Voici quelques manières dont l'estimation de pose peut avoir un impact :
- Milieux de travail plus sûrs : les systèmes basés sur la vision peuvent être utilisés pour détecter les postures risquées, les contraintes répétitives ou les techniques de levage dangereuses avant que des blessures ne surviennent.
- Meilleur entraînement physique et sportif : les solutions de vision par IA peuvent évaluer la forme, l'équilibre et la technique en temps réel, fournissant aux utilisateurs des retours immédiats sans appareils portables.
- Santé et rééducation : les cliniciens peuvent suivre les progrès de la récupération, la posture et l'amplitude de mouvement à distance à l'aide de simples enregistrements vidéo.
- Expériences interactives : l'estimation de pose permet aux avatars numériques et aux environnements immersifs de suivre et de refléter avec précision le mouvement humain.
Link to this sectionL'évolution des algorithmes d'estimation de pose#
L'idée d'estimer des poses existe depuis de nombreuses années. Les premières approches utilisaient des modèles géométriques simples et des règles conçues manuellement, et ne fonctionnaient généralement que dans des conditions contrôlées.
Par exemple, un système pouvait fonctionner correctement lorsqu'une personne restait immobile dans une position fixe, mais échouait dès qu'elle commençait à marcher, à se tourner ou à interagir avec des objets dans des scènes réelles. Ces méthodes avaient souvent du mal avec les mouvements naturels, les changements d'angle de caméra, les arrière-plans encombrés et les occlusions partielles.
L'estimation de pose moderne repose sur l'apprentissage profond pour gérer ces défis. En entraînant des réseaux de neurones convolutifs sur de grands jeux de données étiquetés, les modèles apprennent des motifs visuels qui les aident à détecter les points clés de manière plus fiable à travers différentes poses, personnes et environnements.
Avec davantage d'exemples, le modèle améliore ses prédictions et devient plus performant pour généraliser à de nouvelles scènes. Grâce à ces progrès, l'estimation de pose prend désormais en charge un large éventail de cas d'utilisation pratiques, notamment la surveillance sur le lieu de travail, l'ergonomie et l'analyse sportive, où les entraîneurs et les analystes étudient la manière dont les athlètes bougent.
Link to this sectionTypes de techniques d'estimation de pose#
L'estimation de pose se décline en plusieurs formes, selon le contexte et ce que tu as besoin de mesurer. Voici les principaux types que tu rencontreras :
- Estimation de pose 2D : Cette approche détecte les points clés du corps dans une image ou une vidéo en deux dimensions. Elle fonctionne bien avec des caméras standard et est efficace en termes de calcul, ce qui la rend adaptée à des tâches comme le suivi basique du mouvement, l'analyse de posture et la correction de forme en temps réel.
- Estimation de pose 3D : En estimant la profondeur en plus des coordonnées de l'image, l'estimation de pose 3D offre une compréhension spatiale du mouvement corporel. C'est particulièrement utile lorsque le mouvement vers l'avant et vers l'arrière est important, comme dans l'analyse sportive, la rééducation, la biomécanique et l'animation. Plus précisément, l'estimation de pose humaine 3D capture les positions des articulations et le mouvement dans l'espace 3D, réduisant ainsi l'ambiguïté qui peut survenir avec les projections 2D.
- Estimation de pose mono-personne : Ces systèmes sont conçus pour suivre une seule personne à la fois. Ils ont tendance à être les plus performants dans des environnements contrôlés ou semi-contrôlés où le sujet est clairement visible, comme les applications d'exercices guidés, les appels vidéo ou les configurations d'analyse de mouvement.
- Estimation de pose multi-personnes : Conçue pour des scènes avec plusieurs personnes, cette approche détecte et suit les poses de plusieurs individus simultanément. Elle est particulièrement utile dans des environnements fréquentés comme les lieux de travail, les salles de sport, les espaces publics et les activités de groupe, où les sujets peuvent se chevaucher ou s'occulter mutuellement.

Fig 3. Comprendre le mouvement humain dans l'espace 3D par rapport à l'espace image 2D (Source)
Link to this sectionComprendre le fonctionnement des modèles d'estimation de pose humaine#
L'estimation de pose peut être appliquée à de nombreux types d'objets, mais pour simplifier les choses, concentrons-nous sur l'estimation de pose humaine.
La plupart des systèmes d'estimation de pose humaine sont entraînés sur des jeux de données annotés où les parties clés du corps sont étiquetées dans de vastes collections d'images et de vidéos. Grâce à ces exemples, le modèle apprend des motifs visuels liés aux points de repère du corps humain tels que les épaules, les coudes, les hanches, les genoux et les chevilles, afin de pouvoir prédire les points clés avec précision dans de nouvelles scènes.
Un autre aspect clé est l'architecture d'inférence du modèle, qui détermine comment il détecte les points clés et les assemble en poses complètes. Certains systèmes détectent d'abord chaque personne, puis estiment les points clés dans la région de chaque personne, tandis que d'autres détectent les points clés dans toute l'image, puis les regroupent par individu. De nouvelles conceptions à étape unique permettent de prédire les poses en un seul passage, équilibrant vitesse et précision pour une utilisation en temps réel.
Ensuite, explorons en détail les différentes approches d'estimation de pose.
Link to this sectionEstimation de pose ascendante (Bottom-up)#
Dans une approche ascendante, le modèle examine l'image entière et trouve d'abord les points clés du corps, comme la tête, les épaules, les coudes, les hanches, les genoux et les chevilles. À ce stade, il ne cherche pas à séparer les personnes. Il détecte simplement tous les points clés ou articulations corporelles définis par le squelette de la pose à travers la scène.
Ensuite, le système effectue une deuxième étape pour relier les points. Il lie les points clés qui appartiennent ensemble et les regroupe en squelettes complets, un par personne. Comme il n'a pas besoin de détecter chaque personne au préalable, les méthodes ascendantes fonctionnent souvent bien dans des scènes encombrées où les personnes se chevauchent, apparaissent à des tailles différentes ou sont partiellement cachées.
Link to this sectionDétection de pose descendante (Top-down)#
En revanche, les systèmes descendants commencent par détecter chaque personne dans l'image. Ils placent une boîte englobante autour de chaque individu et traitent chaque boîte comme sa propre région à analyser.
Une fois qu'une personne est isolée, le modèle prédit les points clés du corps dans cette région. Cette configuration étape par étape produit souvent des résultats très précis, surtout lorsqu'il n'y a que quelques personnes dans la scène et que chaque personne est clairement visible.
Link to this sectionEstimation de pose à étape unique ou hybride#
Les modèles à étape unique, parfois appelés hybrides, prédisent les poses en un seul passage. Au lieu d'exécuter d'abord la détection de personne puis l'estimation des points clés, ils génèrent simultanément la position de la personne et les points clés du corps.
Comme tout se passe dans un seul module, ces modèles sont souvent plus rapides et plus efficaces, ce qui en fait un excellent choix pour les usages en temps réel comme le suivi de mouvement en direct et la capture de mouvement. Des modèles tels qu'Ultralytics YOLO11 sont conçus autour de cette idée, visant à équilibrer vitesse et fiabilité des prédictions de points clés.
Link to this sectionEntraînement et évaluation des modèles d'estimation de pose#
Indépendamment de l'approche utilisée, un modèle d'estimation de pose doit toujours être entraîné et testé avec soin avant d'être fiable dans le monde réel. Il apprend généralement à partir de grands ensembles d'images (et parfois de vidéos) où les points clés du corps sont étiquetés, ce qui l'aide à gérer différentes poses, angles de caméra et environnements.
Certains jeux de données d'estimation de pose bien connus incluent COCO Keypoints, MPII Human Pose, CrowdPose et OCHuman. Lorsque ces jeux de données ne reflètent pas les conditions auxquelles le modèle sera confronté lors du déploiement, les ingénieurs collectent et étiquettent souvent des images supplémentaires issues de l'environnement cible, comme une usine, une salle de sport ou une clinique.

Fig 4. Diverses poses estimées à l'aide de la vision par ordinateur (Source)
Après l'entraînement, les performances du modèle sont évaluées sur des benchmarks standards pour mesurer la précision et la robustesse, et pour orienter les réglages ultérieurs pour une utilisation réelle. Les résultats sont souvent rapportés à l'aide de la précision moyenne, communément appelée mAP, qui résume les performances à travers différents seuils de confiance en comparant les poses prédites à la vérité terrain étiquetée.
Dans de nombreux benchmarks de pose, une pose prédite est comparée à une pose de vérité terrain en utilisant l'Object Keypoint Similarity (OKS). L'OKS mesure à quel point les points clés prédits sont proches des points clés annotés, tout en tenant compte de facteurs comme l'échelle de la personne et la difficulté typique de localisation de chaque point clé.
Les modèles de pose renvoient également des scores de confiance pour les personnes détectées et pour les points clés individuels. Ces scores reflètent la confiance du modèle et sont utilisés pour classer et filtrer les prédictions, ce qui est particulièrement important dans des conditions difficiles comme l'occlusion, le flou de bougé ou des angles de caméra inhabituels.
Link to this sectionOutils et bibliothèques populaires pour l'estimation de pose#
De nombreux outils d'estimation de pose sont disponibles aujourd'hui, chacun équilibrant vitesse, précision et facilité d'utilisation. Voici quelques-uns des outils et bibliothèques les plus utilisés :
- Ultralytics YOLO11 : Développé comme un modèle d'IA de vision open-source de pointe, YOLO11 s'appuie sur des modèles antérieurs comme Ultralytics YOLOv8. Il améliore la vitesse, la précision et l'efficacité globale tout en prenant en charge diverses tâches de vision par ordinateur, y compris l'estimation de pose. Avec d'excellentes performances sur diverses plateformes, des ordinateurs portables aux appareils de périphérie (edge), YOLO11 est une excellente option pour de nombreux déploiements réels.
- Ultralytics YOLO26 : Ce futur modèle de nouvelle génération est conçu pour être plus léger, plus petit et plus rapide, tout en conservant une grande précision. Il est conçu pour une utilisation en temps réel et un déploiement plus facile, et prend en charge des tâches comme la détection d'objets, la segmentation d'instances et l'estimation de pose à travers différentes tailles de modèles adaptées à tout, des appareils de périphérie aux systèmes plus importants.
- MediaPipe : Il s'agit d'un framework multiplateforme pour construire des pipelines de vision et d'apprentissage automatique. Il est léger et s'exécute efficacement sur les appareils mobiles, les tablettes et les applications web, et il inclut des solutions et des modèles prêts à l'emploi pour la pose corporelle complète, les points clés du visage et le suivi des mains.
- OpenPose** :** Ce système open-source d'estimation de pose de bout en bout est largement connu pour la détection de points clés multi-personnes. Il peut estimer simultanément les points clés du corps, des mains et du visage, et est couramment utilisé dans la recherche, l'animation et l'analyse de mouvement.
- MMPose : MMPose est une boîte à outils d'estimation de pose basée sur PyTorch issue de l'écosystème OpenMMLab. Elle fournit de nombreuses implémentations de modèles, des utilitaires d'entraînement et des options de configuration, ce qui la rend utile pour l'expérimentation et une personnalisation approfondie.
- HRNet et AlphaPose : Ce sont des modèles d'estimation de pose plus anciens qui sont toujours utilisés dans la recherche aujourd'hui. HRNet est une architecture de modèle de pose qui conserve les caractéristiques d'image haute résolution à travers le réseau, ce qui l'aide à localiser précisément les points clés. AlphaPose est un système d'estimation de pose multi-personnes largement utilisé, couramment employé lorsqu'une grande précision est nécessaire dans des scènes encombrées ou complexes.
Link to this sectionApplications concrètes de l'analyse et de l'estimation de pose#
L'estimation de pose est de plus en plus utilisée pour transformer des vidéos ordinaires en analyses de mouvement utiles. En suivant les points clés du corps image par image, ces systèmes peuvent déduire la posture, le mouvement et le comportement physique à partir de flux vidéo, rendant cette technologie pratique dans de nombreuses situations réelles.
Par exemple, dans la santé et la rééducation, le suivi de pose peut aider les cliniciens à voir et à mesurer la façon dont un patient bouge pendant la thérapie et la récupération. En extrayant les points de repère du corps à partir d'enregistrements vidéo ordinaires, elle peut être utilisée pour évaluer la posture, l'amplitude de mouvement et les modèles de mouvement globaux au fil du temps. Ces mesures peuvent soutenir et optimiser les évaluations cliniques traditionnelles et, dans certains cas, faciliter le suivi des progrès sans avoir besoin de capteurs portables ou d'équipement spécialisé.
De même, dans le sport et la diffusion, l'estimation de pose peut analyser comment les athlètes bougent directement à partir de flux vidéo. Un exemple intéressant est Hawk-Eye, un système de suivi basé sur caméra utilisé dans le sport professionnel pour l'arbitrage et les graphismes de diffusion. Il fournit également un suivi squelettique en estimant les points clés du corps d'un athlète à partir des angles de caméra.
Link to this sectionChoisir le bon outil d'estimation de pose#
Choisir le bon outil d'estimation de pose commence par la compréhension des besoins de ton projet de vision par ordinateur. Certaines applications privilégient la vitesse en temps réel, tandis que d'autres exigent une précision et un détail accrus.
L'appareil de déploiement cible fait également une différence. Les applications mobiles et les appareils de périphérie nécessitent généralement des modèles légers et efficaces, tandis que des modèles plus grands sont souvent mieux adaptés aux serveurs ou aux environnements cloud.
En plus de cela, la facilité d'utilisation peut jouer un rôle. Une bonne documentation, un déploiement fluide et la prise en charge de l'entraînement personnalisé peuvent simplifier ton projet.
En résumé, différents outils excellent dans différents domaines. Par exemple, les modèles Ultralytics YOLO offrent un équilibre pratique entre vitesse, précision et facilité de déploiement pour de nombreuses applications réelles d'estimation de pose.

Fig 5. Estimation de pose animale utilisant Ultralytics YOLO11 (Source)
Link to this sectionPoints clés#
L'estimation de pose aide les ordinateurs à comprendre le mouvement humain en détectant les points clés du corps dans les images et les vidéos. Des modèles comme YOLO11 et YOLO26 facilitent la création d'applications en temps réel pour des domaines tels que le sport, la santé, la sécurité au travail et les expériences interactives. À mesure que les modèles deviennent plus rapides et plus précis, l'estimation de pose est susceptible de devenir une fonctionnalité courante dans de nombreux systèmes d'IA de vision.
Tu souhaites en savoir plus sur l'IA ? Découvre notre communauté et notre dépôt GitHub. Explore nos pages de solutions pour en apprendre davantage sur l'IA dans la robotique et la vision par ordinateur dans la fabrication. Découvre nos options de licence et commence à construire avec la vision par ordinateur dès aujourd'hui !






