Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Le guide ultime des outils d'estimation de pose

Découvrez comment les outils d'estimation de pose peuvent être utilisés pour detect les points clés detect dans les images et les vidéos, estimer les poses en 2D et 3D, et alimenter diverses applications d'IA visuelle.

En tant qu'êtres humains, nous interprétons instinctivement les mouvements. Quand quelqu'un se penche en avant, tourne la tête ou lève le bras, vous pouvez immédiatement déduire ce qu'il est en train de faire. Il s'agit d'une compétence silencieuse, presque inconsciente, qui façonne la manière dont nous interagissons avec les autres et explorons le monde.

À mesure que la technologie occupe une place de plus en plus importante dans notre quotidien, il est naturel que nous souhaitions que nos appareils comprennent les mouvements aussi facilement que nous. Les récentes avancées en matière d'intelligence artificielle, en particulier celles basées sur l'apprentissage profond, rendent cela possible. La vision par ordinateur, qui aide les machines à extraire du sens à partir d'images et de vidéos, contribue notamment à ces progrès.

Par exemple, l'estimation de la pose est une tâche courante en vision par ordinateur qui consiste à prédire l'emplacement de points clés prédéfinis du corps (tels que les épaules, les coudes, les hanches et les genoux) dans une image ou une trame vidéo. Ces points clés peuvent être reliés à l'aide d'une définition de squelette fixe afin de former une représentation simplifiée de la pose. 

Les modèles de vision par ordinateur tels que Ultralytics YOLO11 et le prochain Ultralytics prennent en charge des tâches telles que l'estimation de la posture et peuvent être utilisés pour alimenter des applications en temps réel, notamment le retour d'information sur les formes dans le domaine du fitness et du sport, la surveillance de la sécurité et les expériences interactives de réalité augmentée.

Fig. 1. Aperçu de l'utilisation Ultralytics YOLO11 l'estimation de la pose (Source)

Dans cet article, nous allons nous intéresser de près aux outils d'estimation de pose et voir comment fonctionne l'estimation de pose, où elle est utilisée, ainsi que certains des meilleurs modèles et bibliothèques disponibles aujourd'hui. C'est parti !

Qu'est-ce que l'estimation de pose ?

L'estimation de la pose est une technique de vision par ordinateur qui aide un système à comprendre comment une personne ou un objet est positionné dans une image ou une vidéo. Plutôt que d'analyser chaque pixel de manière égale, elle prédit un ensemble de repères cohérents, tels que la tête, les épaules, les coudes, les hanches, les genoux et les chevilles. 

La plupart des modèles fournissent les coordonnées de ces points clés et un score qui reflète la probabilité que chaque prédiction soit correcte. Ces points clés peuvent ensuite être reliés à l'aide d'une structure squelettique prédéfinie afin de former une représentation simple de la posture. 

Lorsqu'ils sont appliqués image par image dans des vidéos, les points clés obtenus peuvent être associés dans le temps pour estimer le mouvement. Cela permet des applications telles que les vérifications de forme, l'analyse des mouvements et l'interaction basée sur les gestes.

Fig. 2. Exemple d'estimation de la posture (Source)

Le besoin d'outils d'estimation de la pose

Les mouvements humains véhiculent beaucoup d'informations. La façon dont une personne se penche, tend le bras ou déplace son poids peut révéler ses intentions, ses efforts, sa fatigue ou même le risque de blessure. Jusqu'à récemment, pour capturer ce niveau de détail, il fallait généralement recourir à des capteurs spécialisés, des combinaisons de capture de mouvement ou des environnements de laboratoire contrôlés.

L'estimation de la pose change la donne. L'extraction des points de repère clés du corps à partir d'images et de vidéos classiques permet aux ordinateurs d'analyser les mouvements à l'aide de caméras standard. L'analyse des mouvements devient ainsi plus accessible, plus évolutive et plus pratique à utiliser dans des situations réelles.

Voici quelques exemples illustrant l'impact que peut avoir l'estimation de la posture :

  • Des lieux de travail plus sûrs: des systèmes basés sur la vision peuvent être utilisés pour detect les postures detect , les efforts répétitifs ou les techniques de levage dangereuses avant que des blessures ne surviennent.
  • Meilleure condition physique et meilleur entraînement sportif: les solutions Vision AI peuvent évaluer la forme, l'équilibre et la technique en temps réel, offrant ainsi aux utilisateurs un retour immédiat sans avoir recours à des appareils portables.
  • Soins de santé et rééducation: les cliniciens peuvent track à distance les progrès track , la posture et l'amplitude des mouvements à l'aide de simples enregistrements vidéo.
  • Expériences interactives: l'estimation de la posture permet aux avatars numériques et aux environnements immersifs de suivre et de refléter plus facilement et avec précision les mouvements humains.

L'évolution des algorithmes d'estimation de pose

L'idée d'estimer les poses existe depuis de nombreuses années. Les premières approches utilisaient des modèles géométriques simples et des règles élaborées manuellement, et ne fonctionnaient généralement que dans des conditions contrôlées.

Par exemple, un système peut fonctionner correctement lorsqu'une personne reste immobile dans une position fixe, mais tomber en panne lorsqu'elle commence à marcher, à tourner ou à interagir avec des objets dans des scènes réelles. Ces méthodes ont souvent du mal à gérer les mouvements naturels, les changements d'angle de caméra, les arrière-plans encombrés et les occlusions partielles.

L'estimation moderne des poses s'appuie sur l'apprentissage profond pour relever ces défis. En entraînant des réseaux neuronaux convolutifs sur de grands ensembles de données étiquetées, les modèles apprennent des modèles visuels qui les aident à detect de manière plus fiable dans différentes poses, personnes et environnements. 

Grâce à davantage d'exemples, le modèle améliore ses prédictions et devient plus performant dans la généralisation à de nouvelles scènes. Grâce à ces progrès, l'estimation de la pose prend désormais en charge un large éventail de cas d'utilisation pratiques, notamment la surveillance et l'ergonomie sur le lieu de travail, ainsi que l'analyse sportive, où les entraîneurs et les analystes étudient les mouvements des athlètes.

Types de techniques d'estimation de pose

L'estimation de la pose peut prendre différentes formes, en fonction du contexte et de ce que vous devez mesurer. Voici les principaux types que vous rencontrerez :

  • Estimation de la pose en 2D : cette approche détecte les points clés du corps dans une image bidimensionnelle ou une image vidéo. Elle fonctionne bien avec les caméras standard et est efficace sur le plan informatique, ce qui la rend adaptée à des tâches telles que le suivi des mouvements de base, l'analyse de la posture et le retour d'information en temps réel sur la forme.
  • Estimation de la pose 3D : en estimant la profondeur en plus des coordonnées de l'image, l'estimation de la pose 3D fournit une compréhension spatiale du mouvement du corps. Cela est particulièrement utile lorsque les mouvements vers l'avant et vers l'arrière sont importants, comme dans l'analyse sportive, la rééducation, la biomécanique et l'animation. Plus précisément, l'estimation de la pose humaine en 3D capture les positions et les mouvements des articulations dans l'espace 3D, réduisant ainsi l'ambiguïté qui peut survenir avec les projections 2D.
  • Estimation de la posture d'une seule personne : ces systèmes sont conçus pour track personne à la fois. Ils ont tendance à fonctionner mieux dans des environnements contrôlés ou semi-contrôlés où le sujet est clairement visible, comme les applications d'exercices guidés, les appels vidéo ou les configurations d'analyse de mouvement.
  • Estimation de la pose de plusieurs personnes : conçue pour les scènes comportant plusieurs personnes, cette approche détecte et suit simultanément les poses de plusieurs individus. Elle est particulièrement utile dans les environnements très fréquentés tels que les lieux de travail, les salles de sport, les espaces publics et les activités de groupe, où les sujets peuvent se chevaucher ou se masquer les uns les autres.

Fig. 3. Compréhension du mouvement humain dans l'espace 3D par rapport à l'espace image 2D (Source)

Comprendre le fonctionnement des modèles d'estimation de la posture humaine

L'estimation de la pose peut s'appliquer à de nombreux types d'objets, mais pour simplifier, concentrons-nous sur l'estimation de la pose humaine.

La plupart des systèmes d'estimation de la posture humaine sont entraînés à partir d'ensembles de données annotées dans lesquels les parties clés du corps sont étiquetées dans de vastes collections d'images et d'images vidéo. À partir de ces exemples, le modèle apprend les schémas visuels liés aux repères du corps humain tels que les épaules, les coudes, les hanches, les genoux et les chevilles, afin de pouvoir prédire avec précision les points clés dans de nouvelles scènes.

Un autre aspect essentiel est l'architecture d'inférence du modèle, qui détermine la manière dont il détecte les points clés et les assemble pour former des poses complètes. Certains systèmes detect d'abord detect personne, puis estiment les points clés dans la zone correspondant à chaque personne, tandis que d'autres detect dans l'ensemble de l'image, puis les regroupent par individu. Les nouvelles conceptions en une seule étape peuvent prédire les poses en un seul passage, équilibrant vitesse et précision pour une utilisation en temps réel.

Ensuite, examinons en détail différentes approches d'estimation de la pose. 

Estimation de posture ascendante

Dans une approche ascendante, le modèle examine l'image dans son ensemble et identifie d'abord les points clés du corps, tels que la tête, les épaules, les coudes, les hanches, les genoux et les chevilles. À ce stade, il ne cherche pas à séparer les personnes. Il détecte simplement tous les points clés ou articulations du corps définis par le squelette de la pose dans la scène.

Ensuite, le système effectue une deuxième étape pour relier les points. Il relie les points clés qui vont ensemble et les regroupe en squelettes complets, un par personne. Comme il n'est pas nécessaire de detect personne au préalable, les méthodes ascendantes fonctionnent souvent bien dans les scènes encombrées où les personnes se chevauchent, apparaissent à des tailles différentes ou sont partiellement cachées.

Détection de pose descendante

En revanche, les systèmes descendants commencent par détecter chaque personne dans l'image. Ils placent un cadre autour de chaque individu et traitent chaque cadre comme une région distincte à analyser.

Une fois qu'une personne est isolée, le modèle prédit les points clés du corps dans cette région. Cette configuration étape par étape produit souvent des résultats très précis, en particulier lorsqu'il n'y a que quelques personnes dans la scène et que chacune d'entre elles est clairement visible.

Estimation de pose à étape unique ou hybride

Les modèles à étape unique, parfois appelés hybrides, prédisent les poses en un seul passage. Au lieu d'effectuer d'abord la détection des personnes, puis l'estimation des points clés, ils indiquent simultanément l'emplacement des personnes et les points clés du corps.

Comme tout se passe dans un seul module, ces modèles sont souvent plus rapides et plus efficaces, ce qui les rend particulièrement adaptés aux utilisations en temps réel telles que le suivi de mouvement en direct et la capture de mouvement. Des modèles tels que Ultralytics YOLO11 conçus autour de cette idée, dans le but d'équilibrer la vitesse et la fiabilité des prédictions des points clés.

Formation et évaluation des modèles d'estimation de pose

Quelle que soit l'approche utilisée, un modèle d'estimation de pose doit encore être entraîné et testé avec soin avant de pouvoir être fiable dans le monde réel. Il apprend généralement à partir de grands ensembles d'images (et parfois de vidéos) où les points clés du corps sont étiquetés, ce qui l'aide à gérer différentes poses, angles de caméra et environnements.

Parmi les ensembles de données bien connus pour l'estimation des poses, on peut citer COCO , MPII Human Pose, CrowdPose et OCHuman. Lorsque ces ensembles de données ne reflètent pas les conditions auxquelles le modèle sera confronté lors de son déploiement, les ingénieurs collectent et étiquettent souvent des images supplémentaires provenant du contexte cible, tel qu'une usine, une salle de sport ou une clinique.

Fig. 4. Estimation de différentes poses à l'aide de la vision par ordinateur (Source)

Après l'entraînement, les performances du modèle sont évaluées à l'aide de benchmarks standard afin de mesurer leur précision et leur robustesse et d'orienter les ajustements supplémentaires en vue d'une utilisation dans le monde réel. Les résultats sont souvent présentés sous forme de précision moyenne, communément appelée mAP, qui résume les performances pour différents seuils de confiance en comparant les poses prédites à la vérité terrain étiquetée.

Dans de nombreux benchmarks de pose, une pose prédite est mise en correspondance avec une pose de référence à l'aide de l'Object Keypoint Similarity (OKS). L'OKS mesure la proximité entre les points clés prédits et les points clés annotés, tout en tenant compte de facteurs tels que l'échelle de la personne et la difficulté de localisation typique de chaque point clé. 

Les modèles Pose génèrent également des scores de confiance pour les personnes détectées et pour les points clés individuels. Ces scores reflètent la confiance du modèle et sont utilisés pour classer et filtrer les prédictions, ce qui est particulièrement important dans des conditions difficiles telles que l'occlusion, le flou de mouvement ou les angles de caméra inhabituels.

Outils et bibliothèques populaires d'estimation de pose

Il existe aujourd'hui de nombreux outils d'estimation de pose, chacun offrant un compromis entre vitesse, précision et facilité d'utilisation. Voici quelques-uns des outils et bibliothèques les plus couramment utilisés :

  • Ultralytics YOLO11: Développé comme un modèle d'IA visuelle open source de pointe, YOLO11 sur des modèles antérieurs tels que Ultralytics YOLOv8. Il améliore la vitesse, la précision et l'efficacité globale tout en prenant en charge diverses tâches de vision par ordinateur, y compris l'estimation de la pose. Avec des performances élevées sur toutes les plateformes, des ordinateurs portables aux appareils périphériques, YOLO11 une excellente option pour de nombreux déploiements dans le monde réel.
  • Ultralytics : ce modèle de nouvelle génération à venir est conçu pour être plus léger, plus petit et plus rapide, tout en conservant une grande précision. Il est conçu pour une utilisation en temps réel et un déploiement plus facile, et prend en charge des tâches telles que la détection d'objets, la segmentation d'instances et l'estimation de poses sur des modèles de toutes tailles, adaptés à tout, des appareils périphériques aux systèmes plus importants.
  • MediaPipe : Il s'agit d'un framework multiplateforme permettant de créer des pipelines de vision et d'apprentissage automatique. Léger, il fonctionne efficacement sur les appareils mobiles, les tablettes et les applications web. Il comprend des solutions et des modèles prêts à l'emploi pour la pose du corps entier, les repères faciaux et le suivi des mains.
  • OpenPose: ce système open source de bout en bout d'estimation de la pose est largement connu pour la détection de points clés sur plusieurs personnes. Il peut estimer simultanément les points clés du corps, des mains et du visage, et est couramment utilisé dans la recherche, l'animation et l'analyse de mouvements.
  • MMPose : MMPose est une boîte à outils d'estimation de pose PyTorch issue de l'écosystème OpenMMLab. Elle fournit de nombreuses implémentations de modèles, des utilitaires de formation et des options de configuration, ce qui la rend utile pour l'expérimentation et la personnalisation approfondie.
  • HRNet et AlphaPose : il s'agit de modèles d'estimation de pose plus anciens qui sont encore utilisés aujourd'hui dans la recherche. HRNet est une architecture de modèle de pose qui conserve les caractéristiques des images haute résolution dans tout le réseau, ce qui lui permet de localiser les points clés avec précision. AlphaPose est un système d'estimation de pose multi-personnes largement utilisé, couramment utilisé lorsqu'une grande précision est nécessaire dans des scènes encombrées ou complexes.

Applications concrètes de l'analyse et de l'estimation de la posture

L'estimation de la posture est de plus en plus utilisée pour transformer des vidéos ordinaires en informations utiles sur les mouvements. En suivant les points clés du corps image par image, ces systèmes peuvent déduire la posture, les mouvements et le comportement physique à partir des images filmées par la caméra, ce qui rend cette technologie pratique dans de nombreux contextes réels.

Par exemple, dans le domaine des soins de santé et de la rééducation, le suivi des postures peut aider les cliniciens à observer et à mesurer les mouvements d'un patient pendant sa thérapie et sa convalescence. En extrayant les repères corporels à partir d'enregistrements vidéo ordinaires, il permet d'évaluer la posture, l'amplitude des mouvements et les schémas moteurs globaux au fil du temps. Ces mesures peuvent compléter et optimiser les évaluations cliniques traditionnelles et, dans certains cas, faciliter track sans avoir recours à des capteurs portables ou à des équipements spécialisés.

De même, dans le domaine du sport et de la diffusion, l'estimation de la posture permet d'analyser les mouvements des athlètes directement à partir des flux vidéo. Un exemple intéressant est celui de Hawk-Eye, un système de suivi par caméra utilisé dans le sport professionnel pour l'arbitrage et les graphiques de diffusion. Il permet également de suivre le squelette en estimant les points clés du corps d'un athlète à partir des images de la caméra.

Choisir le bon outil d'estimation de pose

Pour choisir le bon outil d'estimation de pose, il faut d'abord comprendre les besoins de votre projet de vision par ordinateur. Certaines applications privilégient la vitesse en temps réel, tandis que d'autres exigent une précision et un niveau de détail plus élevés. 

Le dispositif de déploiement cible fait également la différence. Les applications mobiles et les périphériques de pointe nécessitent généralement des modèles légers et efficaces, tandis que les modèles plus volumineux conviennent souvent mieux aux serveurs ou aux environnements cloud.

En outre, la facilité d'utilisation peut jouer un rôle important. Une documentation de qualité, un déploiement fluide et une assistance pour la formation personnalisée peuvent rationaliser votre projet. 

En termes simples, différents outils excellent dans différents domaines. Par exemple, YOLO Ultralytics offrent un équilibre pratique entre vitesse, précision et facilité de déploiement pour de nombreuses applications réelles d'estimation de pose.

Fig. 5. Estimation de la posture animale à l'aide d'Ultralytics YOLO11 Source)

Principaux points à retenir

L'estimation de la pose aide les ordinateurs à comprendre les mouvements humains en détectant les points clés du corps dans les images et les vidéos. Des modèles tels que YOLO11 YOLO26 facilitent la création d'applications en temps réel dans des domaines tels que le sport, la santé, la sécurité au travail et les expériences interactives. À mesure que les modèles deviennent plus rapides et plus précis, l'estimation de la pose est susceptible de devenir une fonctionnalité courante dans de nombreux systèmes d'IA visuelle.

Vous souhaitez en savoir plus sur l'IA ? Découvrez notre communauté et notre référentiel GitHub. Explorez nos pages de solutions pour en savoir plus sur l'IA dans la robotique et la vision par ordinateur dans le secteur manufacturier. Découvrez nos options de licence et commencez dès aujourd'hui à développer des applications de vision par ordinateur !

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement