Découvrez comment les outils d'estimation de pose peuvent être utilisés pour detect les points clés detect dans les images et les vidéos, estimer les poses en 2D et 3D, et alimenter diverses applications d'IA visuelle.

Découvrez comment les outils d'estimation de pose peuvent être utilisés pour detect les points clés detect dans les images et les vidéos, estimer les poses en 2D et 3D, et alimenter diverses applications d'IA visuelle.

En tant qu'êtres humains, nous interprétons instinctivement les mouvements. Quand quelqu'un se penche en avant, tourne la tête ou lève le bras, vous pouvez immédiatement déduire ce qu'il est en train de faire. Il s'agit d'une compétence silencieuse, presque inconsciente, qui façonne la manière dont nous interagissons avec les autres et explorons le monde.
À mesure que la technologie occupe une place de plus en plus importante dans notre quotidien, il est naturel que nous souhaitions que nos appareils comprennent les mouvements aussi facilement que nous. Les récentes avancées en matière d'intelligence artificielle, en particulier celles basées sur l'apprentissage profond, rendent cela possible. La vision par ordinateur, qui aide les machines à extraire du sens à partir d'images et de vidéos, contribue notamment à ces progrès.
Par exemple, l'estimation de la pose est une tâche courante en vision par ordinateur qui consiste à prédire l'emplacement de points clés prédéfinis du corps (tels que les épaules, les coudes, les hanches et les genoux) dans une image ou une trame vidéo. Ces points clés peuvent être reliés à l'aide d'une définition de squelette fixe afin de former une représentation simplifiée de la pose.
Les modèles de vision par ordinateur tels que Ultralytics YOLO11 et le prochain Ultralytics prennent en charge des tâches telles que l'estimation de la posture et peuvent être utilisés pour alimenter des applications en temps réel, notamment le retour d'information sur les formes dans le domaine du fitness et du sport, la surveillance de la sécurité et les expériences interactives de réalité augmentée.
.webp)
Dans cet article, nous allons nous intéresser de près aux outils d'estimation de pose et voir comment fonctionne l'estimation de pose, où elle est utilisée, ainsi que certains des meilleurs modèles et bibliothèques disponibles aujourd'hui. C'est parti !
L'estimation de la pose est une technique de vision par ordinateur qui aide un système à comprendre comment une personne ou un objet est positionné dans une image ou une vidéo. Plutôt que d'analyser chaque pixel de manière égale, elle prédit un ensemble de repères cohérents, tels que la tête, les épaules, les coudes, les hanches, les genoux et les chevilles.
La plupart des modèles fournissent les coordonnées de ces points clés et un score qui reflète la probabilité que chaque prédiction soit correcte. Ces points clés peuvent ensuite être reliés à l'aide d'une structure squelettique prédéfinie afin de former une représentation simple de la posture.
Lorsqu'ils sont appliqués image par image dans des vidéos, les points clés obtenus peuvent être associés dans le temps pour estimer le mouvement. Cela permet des applications telles que les vérifications de forme, l'analyse des mouvements et l'interaction basée sur les gestes.
.webp)
Les mouvements humains véhiculent beaucoup d'informations. La façon dont une personne se penche, tend le bras ou déplace son poids peut révéler ses intentions, ses efforts, sa fatigue ou même le risque de blessure. Jusqu'à récemment, pour capturer ce niveau de détail, il fallait généralement recourir à des capteurs spécialisés, des combinaisons de capture de mouvement ou des environnements de laboratoire contrôlés.
L'estimation de la pose change la donne. L'extraction des points de repère clés du corps à partir d'images et de vidéos classiques permet aux ordinateurs d'analyser les mouvements à l'aide de caméras standard. L'analyse des mouvements devient ainsi plus accessible, plus évolutive et plus pratique à utiliser dans des situations réelles.
Voici quelques exemples illustrant l'impact que peut avoir l'estimation de la posture :
L'idée d'estimer les poses existe depuis de nombreuses années. Les premières approches utilisaient des modèles géométriques simples et des règles élaborées manuellement, et ne fonctionnaient généralement que dans des conditions contrôlées.
Par exemple, un système peut fonctionner correctement lorsqu'une personne reste immobile dans une position fixe, mais tomber en panne lorsqu'elle commence à marcher, à tourner ou à interagir avec des objets dans des scènes réelles. Ces méthodes ont souvent du mal à gérer les mouvements naturels, les changements d'angle de caméra, les arrière-plans encombrés et les occlusions partielles.
L'estimation moderne des poses s'appuie sur l'apprentissage profond pour relever ces défis. En entraînant des réseaux neuronaux convolutifs sur de grands ensembles de données étiquetées, les modèles apprennent des modèles visuels qui les aident à detect de manière plus fiable dans différentes poses, personnes et environnements.
Grâce à davantage d'exemples, le modèle améliore ses prédictions et devient plus performant dans la généralisation à de nouvelles scènes. Grâce à ces progrès, l'estimation de la pose prend désormais en charge un large éventail de cas d'utilisation pratiques, notamment la surveillance et l'ergonomie sur le lieu de travail, ainsi que l'analyse sportive, où les entraîneurs et les analystes étudient les mouvements des athlètes.
L'estimation de la pose peut prendre différentes formes, en fonction du contexte et de ce que vous devez mesurer. Voici les principaux types que vous rencontrerez :
.webp)
L'estimation de la pose peut s'appliquer à de nombreux types d'objets, mais pour simplifier, concentrons-nous sur l'estimation de la pose humaine.
La plupart des systèmes d'estimation de la posture humaine sont entraînés à partir d'ensembles de données annotées dans lesquels les parties clés du corps sont étiquetées dans de vastes collections d'images et d'images vidéo. À partir de ces exemples, le modèle apprend les schémas visuels liés aux repères du corps humain tels que les épaules, les coudes, les hanches, les genoux et les chevilles, afin de pouvoir prédire avec précision les points clés dans de nouvelles scènes.
Un autre aspect essentiel est l'architecture d'inférence du modèle, qui détermine la manière dont il détecte les points clés et les assemble pour former des poses complètes. Certains systèmes detect d'abord detect personne, puis estiment les points clés dans la zone correspondant à chaque personne, tandis que d'autres detect dans l'ensemble de l'image, puis les regroupent par individu. Les nouvelles conceptions en une seule étape peuvent prédire les poses en un seul passage, équilibrant vitesse et précision pour une utilisation en temps réel.
Ensuite, examinons en détail différentes approches d'estimation de la pose.
Dans une approche ascendante, le modèle examine l'image dans son ensemble et identifie d'abord les points clés du corps, tels que la tête, les épaules, les coudes, les hanches, les genoux et les chevilles. À ce stade, il ne cherche pas à séparer les personnes. Il détecte simplement tous les points clés ou articulations du corps définis par le squelette de la pose dans la scène.
Ensuite, le système effectue une deuxième étape pour relier les points. Il relie les points clés qui vont ensemble et les regroupe en squelettes complets, un par personne. Comme il n'est pas nécessaire de detect personne au préalable, les méthodes ascendantes fonctionnent souvent bien dans les scènes encombrées où les personnes se chevauchent, apparaissent à des tailles différentes ou sont partiellement cachées.
En revanche, les systèmes descendants commencent par détecter chaque personne dans l'image. Ils placent un cadre autour de chaque individu et traitent chaque cadre comme une région distincte à analyser.
Une fois qu'une personne est isolée, le modèle prédit les points clés du corps dans cette région. Cette configuration étape par étape produit souvent des résultats très précis, en particulier lorsqu'il n'y a que quelques personnes dans la scène et que chacune d'entre elles est clairement visible.
Les modèles à étape unique, parfois appelés hybrides, prédisent les poses en un seul passage. Au lieu d'effectuer d'abord la détection des personnes, puis l'estimation des points clés, ils indiquent simultanément l'emplacement des personnes et les points clés du corps.
Comme tout se passe dans un seul module, ces modèles sont souvent plus rapides et plus efficaces, ce qui les rend particulièrement adaptés aux utilisations en temps réel telles que le suivi de mouvement en direct et la capture de mouvement. Des modèles tels que Ultralytics YOLO11 conçus autour de cette idée, dans le but d'équilibrer la vitesse et la fiabilité des prédictions des points clés.
Quelle que soit l'approche utilisée, un modèle d'estimation de pose doit encore être entraîné et testé avec soin avant de pouvoir être fiable dans le monde réel. Il apprend généralement à partir de grands ensembles d'images (et parfois de vidéos) où les points clés du corps sont étiquetés, ce qui l'aide à gérer différentes poses, angles de caméra et environnements.
Parmi les ensembles de données bien connus pour l'estimation des poses, on peut citer COCO , MPII Human Pose, CrowdPose et OCHuman. Lorsque ces ensembles de données ne reflètent pas les conditions auxquelles le modèle sera confronté lors de son déploiement, les ingénieurs collectent et étiquettent souvent des images supplémentaires provenant du contexte cible, tel qu'une usine, une salle de sport ou une clinique.
.webp)
Après l'entraînement, les performances du modèle sont évaluées à l'aide de benchmarks standard afin de mesurer leur précision et leur robustesse et d'orienter les ajustements supplémentaires en vue d'une utilisation dans le monde réel. Les résultats sont souvent présentés sous forme de précision moyenne, communément appelée mAP, qui résume les performances pour différents seuils de confiance en comparant les poses prédites à la vérité terrain étiquetée.
Dans de nombreux benchmarks de pose, une pose prédite est mise en correspondance avec une pose de référence à l'aide de l'Object Keypoint Similarity (OKS). L'OKS mesure la proximité entre les points clés prédits et les points clés annotés, tout en tenant compte de facteurs tels que l'échelle de la personne et la difficulté de localisation typique de chaque point clé.
Les modèles Pose génèrent également des scores de confiance pour les personnes détectées et pour les points clés individuels. Ces scores reflètent la confiance du modèle et sont utilisés pour classer et filtrer les prédictions, ce qui est particulièrement important dans des conditions difficiles telles que l'occlusion, le flou de mouvement ou les angles de caméra inhabituels.
Il existe aujourd'hui de nombreux outils d'estimation de pose, chacun offrant un compromis entre vitesse, précision et facilité d'utilisation. Voici quelques-uns des outils et bibliothèques les plus couramment utilisés :
L'estimation de la posture est de plus en plus utilisée pour transformer des vidéos ordinaires en informations utiles sur les mouvements. En suivant les points clés du corps image par image, ces systèmes peuvent déduire la posture, les mouvements et le comportement physique à partir des images filmées par la caméra, ce qui rend cette technologie pratique dans de nombreux contextes réels.
Par exemple, dans le domaine des soins de santé et de la rééducation, le suivi des postures peut aider les cliniciens à observer et à mesurer les mouvements d'un patient pendant sa thérapie et sa convalescence. En extrayant les repères corporels à partir d'enregistrements vidéo ordinaires, il permet d'évaluer la posture, l'amplitude des mouvements et les schémas moteurs globaux au fil du temps. Ces mesures peuvent compléter et optimiser les évaluations cliniques traditionnelles et, dans certains cas, faciliter track sans avoir recours à des capteurs portables ou à des équipements spécialisés.
De même, dans le domaine du sport et de la diffusion, l'estimation de la posture permet d'analyser les mouvements des athlètes directement à partir des flux vidéo. Un exemple intéressant est celui de Hawk-Eye, un système de suivi par caméra utilisé dans le sport professionnel pour l'arbitrage et les graphiques de diffusion. Il permet également de suivre le squelette en estimant les points clés du corps d'un athlète à partir des images de la caméra.
Pour choisir le bon outil d'estimation de pose, il faut d'abord comprendre les besoins de votre projet de vision par ordinateur. Certaines applications privilégient la vitesse en temps réel, tandis que d'autres exigent une précision et un niveau de détail plus élevés.
Le dispositif de déploiement cible fait également la différence. Les applications mobiles et les périphériques de pointe nécessitent généralement des modèles légers et efficaces, tandis que les modèles plus volumineux conviennent souvent mieux aux serveurs ou aux environnements cloud.
En outre, la facilité d'utilisation peut jouer un rôle important. Une documentation de qualité, un déploiement fluide et une assistance pour la formation personnalisée peuvent rationaliser votre projet.
En termes simples, différents outils excellent dans différents domaines. Par exemple, YOLO Ultralytics offrent un équilibre pratique entre vitesse, précision et facilité de déploiement pour de nombreuses applications réelles d'estimation de pose.

L'estimation de la pose aide les ordinateurs à comprendre les mouvements humains en détectant les points clés du corps dans les images et les vidéos. Des modèles tels que YOLO11 YOLO26 facilitent la création d'applications en temps réel dans des domaines tels que le sport, la santé, la sécurité au travail et les expériences interactives. À mesure que les modèles deviennent plus rapides et plus précis, l'estimation de la pose est susceptible de devenir une fonctionnalité courante dans de nombreux systèmes d'IA visuelle.
Vous souhaitez en savoir plus sur l'IA ? Découvrez notre communauté et notre référentiel GitHub. Explorez nos pages de solutions pour en savoir plus sur l'IA dans la robotique et la vision par ordinateur dans le secteur manufacturier. Découvrez nos options de licence et commencez dès aujourd'hui à développer des applications de vision par ordinateur !