Qu'est-ce que l'estimation de la pose et où peut-elle être utilisée ?

Abirami Vina

5 minutes de lecture

7 mai 2025

Découvrez comment fonctionne l'estimation de la pose, ses applications dans le monde réel et comment des modèles comme Ultralytics YOLO11 permettent aux machines d'interpréter les mouvements et la posture du corps.

Lorsque vous voyez une personne avachie ou debout, les épaules en arrière, vous savez immédiatement si elle a une mauvaise posture ou si elle est sûre d'elle. Personne n'a besoin de vous l'expliquer. En effet, au fil du temps, nous avons naturellement appris à interpréter le langage corporel. 

À force d'expérience et d'observation, notre cerveau est devenu très doué pour reconnaître la posture de divers objets, y compris les humains. Grâce aux progrès récents de l'intelligence artificielle (IA) et de la vision par ordinateur, un domaine qui permet aux machines d'interpréter les informations visuelles du monde, les machines commencent maintenant à apprendre et à reproduire cette capacité.

L'estimation de la pose est une tâche de vision par ordinateur qui aide les machines à déterminer la position et l'orientation d'une personne ou d'un objet en regardant des images ou des vidéos. Pour ce faire, elle identifie les points clés du corps, comme les articulations et les membres, afin de comprendre comment une personne, ou même un objet, se déplace. 

Cette technologie est largement utilisée dans des domaines tels que le fitness, les soins de santé et l'animation. Dans les environnements de travail, par exemple, elle peut être utilisée pour surveiller la posture des employés et soutenir les initiatives en matière de sécurité et de bien-être. Des modèles de vision par ordinateur comme Ultralytics YOLO11 rendent cela possible en estimant les postures humaines en temps réel.

__wf_reserved_inherit
Fig. 1. Exemple d'utilisation de YOLO11 pour contrôler la posture des travailleurs.

Dans cet article, nous allons examiner de plus près l'estimation de la pose et son fonctionnement, ainsi que des cas d'utilisation concrets où elle fait la différence. Commençons par le commencement !

L'évolution de l'estimation de la pose

La recherche sur l'estimation de la pose a débuté à la fin des années 1960 et dans les années 1970. Au fil des ans, les approches de cette tâche de vision par ordinateur sont passées des mathématiques et de la géométrie de base à des méthodes plus avancées basées sur l'intelligence artificielle.

Au départ, les techniques reposaient sur des angles de caméra fixes et des points de référence connus. Plus tard, elles ont évolué pour inclure des modèles 3D et la correspondance des caractéristiques. Aujourd'hui, des modèles d'apprentissage profond comme YOLO11 peuvent détecter les positions du corps en temps réel à partir d'images ou de vidéos, ce qui rend l'estimation de la pose plus rapide et plus précise que jamais.

Au fur et à mesure que la technologie s'améliorait, les chercheurs ont vu les applications potentielles de la possibilité de surveiller et de suivre les poses de divers objets, en particulier les humains et les animaux. L'estimation de la pose est particulièrement importante car elle permet aux outils d'intelligence artificielle de comprendre et de mesurer la posture et le mouvement d'une manière qui n'était pas possible auparavant. 

Par exemple, elle permet aux ordinateurs de reconnaître les gestes pour une interaction mains libres, d'analyser les mouvements des athlètes pour améliorer leurs performances, de créer des animations réalistes dans les jeux vidéo et même de soutenir les soins de santé en suivant les progrès du rétablissement des patients.

En quoi cela diffère-t-il des autres tâches de vision par ordinateur ?

L'estimation de la pose diffère d'autres tâches de vision artificielle telles que la détection d'objets et la segmentation d'instances. Ces tâches se concentrent principalement sur l'identification et la localisation d'objets dans une image. 

La détection d'objets, par exemple, dessine des boîtes de délimitation autour d'éléments tels que des personnes, des véhicules ou des animaux pour indiquer leur présence et leur position. La segmentation des instances va plus loin en définissant la forme précise de chaque objet au niveau du pixel.

Cependant, ces deux méthodes s'intéressent principalement à la nature de l'objet et à l'endroit où il se trouve - elles ne fournissent aucune information sur la position de l'objet ou sur ce qu'il pourrait être en train de faire. C'est là que l'estimation de la pose devient cruciale. 

En identifiant des points clés du corps, tels que les coudes, les genoux ou même la queue, l'estimation de la pose permet d'interpréter la posture et le mouvement. Cela permet de mieux comprendre les actions, les gestes et la dynamique du corps, y compris les mouvements dans l'espace 3D.

Comprendre le fonctionnement de l'estimation de la pose

Les modèles d'estimation de la pose suivent généralement deux approches principales : ascendante et descendante. Dans l'approche ascendante, le modèle détecte d'abord les points clés individuels, comme les coudes, les genoux ou les épaules, puis les regroupe pour déterminer à quelle personne ou à quel objet ils appartiennent. En revanche, l'approche descendante commence par détecter chaque objet (par exemple une personne dans l'image), puis localise les points clés de cet objet spécifique.

__wf_reserved_inherit
Fig. 2. Méthodes d'estimation de la pose ascendante et descendante.

Certains modèles plus récents, comme YOLO11, combinent les avantages des deux approches. Ils conservent l'efficacité de la méthode ascendante en supprimant l'étape du regroupement manuel, tout en tirant parti de la précision des systèmes descendants en détectant les personnes et en estimant leur position en une seule fois, dans le cadre d'un processus unique et rationalisé.

Entraînement personnalisé YOLO11 pour l'estimation de la pose

Alors que nous examinons le fonctionnement des modèles d'estimation de la pose, vous vous demandez peut-être comment ces modèles apprennent à estimer la pose de différents objets. C'est là que l'idée d'un apprentissage personnalisé entre en jeu.

L'apprentissage personnalisé consiste à apprendre à un modèle à reconnaître des points clés spécifiques à l'aide de vos propres données. Étant donné que la création d'un modèle à partir de zéro nécessite une grande quantité d'images étiquetées et beaucoup de temps, de nombreuses personnes optent pour l'apprentissage par transfert. Il s'agit de partir d'un modèle qui a déjà été entraîné sur un grand ensemble de données, comme le modèle d'estimation de la pose YOLO11, qui est pré-entraîné sur l'ensemble de données COCO-Pose, puis de l'affiner avec vos propres données pour une tâche ou un cas d'utilisation spécifique.

Imaginons que vous travailliez sur des poses de yoga. Vous pouvez affiner YOLO11 en utilisant des images où chaque pose est étiquetée avec des points clés spécifiques à cette activité. Pour ce faire, vous aurez besoin d'un ensemble personnalisé d'images annotées à partir desquelles le modèle pourra apprendre. 

Pendant l'apprentissage, vous pouvez ajuster des paramètres tels que la taille du lot (le nombre d'images traitées en même temps), le taux d'apprentissage (la vitesse à laquelle le modèle met à jour son apprentissage) et les époques (le nombre de fois que le modèle parcourt l'ensemble de données) afin d'améliorer la précision. Il est ainsi beaucoup plus facile de construire des modèles d'estimation de la pose adaptés à vos besoins spécifiques.

Applications réelles de l'estimation de la pose

Maintenant que nous avons expliqué ce qu'est l'estimation de la pose et comment elle fonctionne, examinons de plus près certains de ses cas d'utilisation dans le monde réel.

Utilisation de l'estimation de la pose pour la physiothérapie 

L'estimation de la posture devient progressivement un outil fiable dans le secteur des soins de santé, en particulier dans le domaine de la kinésithérapie. Grâce à l'intelligence artificielle et à la vision par ordinateur, ces systèmes peuvent suivre la posture et les mouvements en temps réel et fournir un retour d'information, comme le ferait un physiothérapeute. 

Par exemple, un patient qui se remet d'une opération du genou peut utiliser un système d'estimation des poses pour s'assurer qu'il effectue correctement ses exercices de rééducation. Le système peut repérer les mouvements incorrects et proposer des suggestions d'amélioration, ce qui aide le patient à rester sur la bonne voie et à éviter les blessures.

__wf_reserved_inherit
Fig. 3. Exemple d'utilisation de YOLO11 pour la physiothérapie.

Au-delà de la rééducation, l'estimation de la pose fait également son chemin dans les applications de fitness. Par exemple, une personne qui s'entraîne chez elle peut utiliser l'application pour vérifier sa forme pendant les exercices. L'application peut donner un retour d'information en temps réel, comme ajuster l'angle d'un squat ou s'assurer que le dos est droit pendant un soulevé de terre. Cela permet aux utilisateurs d'améliorer leur forme et de prévenir les blessures sans avoir recours à un entraîneur.

Capture de mouvement pour le divertissement grâce à l'estimation de la pose

L'estimation de la pose a changé la façon dont la capture de mouvement fonctionne dans le domaine du divertissement, en la rendant plus simple et plus accessible. Auparavant, la capture de mouvements nécessitait de placer des marqueurs sur le corps d'une personne et de les suivre à l'aide de caméras spéciales, ce qui pouvait s'avérer délicat et coûteux. 

Aujourd'hui, grâce aux progrès de l'IA et de la vision par ordinateur, nous pouvons utiliser des caméras ordinaires et des algorithmes pour suivre les mouvements du corps sans avoir besoin de marqueurs, ce qui rend le processus plus efficace et plus précis, même en temps réel.

L'AR (Augmented Reality) Poser de Disney en est un bon exemple. Cet outil amusant vous permet de prendre une photo avec votre téléphone et de demander à un personnage numérique de copier votre pose en réalité augmentée. Il analyse votre pose sur la photo et la fait correspondre à un personnage en 3D, créant ainsi un selfie AR amusant et personnalisé. 

__wf_reserved_inherit
Fig. 4. Un personnage AR imite la pose d'une personne à l'aide de l'estimation de la pose.

L'estimation de la pose des animaux au service de la recherche sur le comportement social

L'étude du comportement animal aide les scientifiques à comprendre comment les animaux communiquent, trouvent des partenaires, s'occupent de leurs petits et vivent en groupe. Ces connaissances sont essentielles pour protéger les espèces sauvages et mieux comprendre le monde naturel.

L'estimation de la pose simplifie ce processus en suivant les mouvements et la posture des animaux à l'aide d'images et de vidéos, sans attacher de capteurs ou d'étiquettes aux animaux. Ces systèmes peuvent surveiller automatiquement leurs postures et fournir des informations sur des comportements tels que le toilettage, le jeu ou le combat. 

Les scientifiques qui utilisent l'estimation de la pose pour étudier le comportement des grands singes en sont un exemple intéressant. En fait, les chercheurs ont compilé des ensembles de données comme OpenApePose, qui contient plus de 71 000 images étiquetées de six espèces de singes. 

__wf_reserved_inherit
Fig. 5. Estimation de la pose du singe.

Avantages et inconvénients de l'estimation de la pose

Voici quelques-uns des principaux avantages que l'estimation de la pose peut apporter à diverses industries :

  • Évolutivité: Les systèmes d'estimation de la pose peuvent être déployés sur une large gamme d'appareils, des smartphones aux caméras avancées, ce qui les rend très évolutifs et accessibles pour différents cas d'utilisation et environnements.

  • Rentable : Étant donné que l'estimation de la pose repose sur des caméras ordinaires et ne nécessite pas de capteurs ou d'étiquettes coûteux, elle peut constituer une solution plus rentable pour le suivi des mouvements dans les applications de recherche et les applications commerciales.

  • Suivi continu : Les systèmes d'estimation de la pose peuvent assurer un suivi continu en temps réel, ce qui permet de surveiller les changements au fil du temps, qu'il s'agisse des progrès d'un patient en rééducation ou du suivi du comportement d'un animal dans la nature.

Si les avantages de l'estimation de la pose sont évidents dans de nombreux domaines, il y a aussi des difficultés à prendre en compte. Voici quelques limitations clés à garder à l'esprit :

  • Généralisation limitée : De nombreux modèles formés sur des ensembles de données humaines ne se généralisent pas bien aux animaux ou aux structures corporelles peu communes sans un réentraînement sur des ensembles de données spécifiques.

  • Limitations environnementales : Les performances peuvent se dégrader en cas de mauvais éclairage, de flou de mouvement rapide ou d'arrière-plan encombré.
  • Sensibilité élevée à l'occlusion : La précision peut diminuer lorsque des parties du corps sont bloquées ou hors du cadre, en particulier dans les scènes encombrées ou le suivi de plusieurs personnes.

Principaux enseignements

L'estimation de la pose a parcouru un long chemin depuis ses débuts, évoluant de systèmes qui utilisaient des marqueurs à des outils percutants pilotés par des modèles d'apprentissage profond tels que YOLO11. Qu'il s'agisse d'améliorer la thérapie physique, d'alimenter des expériences AR interactives ou d'aider la recherche sur la faune, l'estimation de la pose change la façon dont les machines comprennent le mouvement et la posture. À mesure que la technologie progresse, il sera essentiel de s'attaquer à ses limites pour débloquer encore plus d'utilisations pratiques et faire en sorte que les machines comprennent mieux comment nous et les autres êtres vivants nous déplaçons.

Curieux de l'IA ? Explorez notre dépôt GitHub, entrez en contact avec notre communauté et consultez nos options de licence pour démarrer votre projet de vision par ordinateur. Pour en savoir plus sur des innovations telles que l 'IA dans le commerce de détail et la vision par ordinateur dans le secteur de la logistique, consultez nos pages consacrées aux solutions.

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers