Qu'est-ce que l'estimation de pose et où peut-elle être utilisée ?
Apprends comment fonctionne l'estimation de pose, ses applications concrètes, et comment des modèles comme Ultralytics YOLO11 permettent aux machines d'interpréter les mouvements du corps et la posture.

Quand tu vois quelqu'un avachi ou qui se tient droit, les épaules en arrière, tu vois immédiatement s'il a une mauvaise posture ou s'il est confiant. Personne n'a besoin de te l'expliquer. C'est parce qu'au fil du temps, nous avons naturellement appris à interpréter le langage corporel.
Grâce à l'expérience et à l'observation, notre cerveau est devenu très doué pour reconnaître la posture de divers objets, y compris les humains. Grâce aux progrès récents de l'intelligence artificielle (IA) et de la vision par ordinateur, un domaine qui permet aux machines d'interpréter les informations visuelles du monde, les machines commencent désormais à apprendre et à reproduire cette capacité également.
L'estimation de pose est une tâche de vision par ordinateur qui aide les machines à déterminer la position et l'orientation d'une personne ou d'un objet en observant des images ou des vidéos. Elle y parvient en identifiant des points clés sur le corps, comme les articulations et les membres, pour comprendre comment quelqu'un, ou même quelque chose, se déplace.
Cette technologie est largement utilisée dans des domaines comme le fitness, la santé et l'animation. Dans les environnements de travail, par exemple, elle peut être utilisée pour surveiller la posture des employés et soutenir les initiatives de sécurité et de bien-être. Des modèles de vision par ordinateur comme Ultralytics YOLO11 rendent cela possible en estimant les poses humaines en temps réel.

Fig 1. Un exemple d'utilisation de YOLO11 pour surveiller la posture des travailleurs.
Dans cet article, nous examinerons de plus près l'estimation de pose et son fonctionnement, ainsi que des cas d'utilisation concrets où elle fait la différence. Commençons !
Link to this sectionL'évolution de l'estimation de pose#
La recherche sur l'estimation de pose a débuté à la fin des années 1960 et 70. Au fil des années, les approches de cette tâche de vision par ordinateur sont passées des mathématiques et de la géométrie de base à des méthodes plus avancées pilotées par l'intelligence artificielle.
Au départ, les techniques dépendaient d'angles de caméra fixes et de points de référence connus. Plus tard, elles ont évolué pour inclure des modèles 3D et la correspondance de caractéristiques. Aujourd'hui, des modèles d'apprentissage profond comme YOLO11 peuvent détecter des positions corporelles en temps réel à partir d'images ou de vidéos, rendant l'estimation de pose plus rapide et plus précise que jamais.
À mesure que la technologie s'améliorait, les chercheurs ont vu les applications potentielles de la capacité à surveiller et à suivre les poses de divers objets, en particulier les humains et les animaux. L'estimation de pose est particulièrement importante car elle permet aux outils d'IA de comprendre et de mesurer la posture et le mouvement de manières qui n'étaient pas possibles auparavant.
Par exemple, elle permet aux ordinateurs de reconnaître des gestes pour une interaction sans les mains, analyse les mouvements des athlètes pour améliorer leurs performances, alimente des animations réalistes dans les jeux vidéo et soutient même la santé en suivant les progrès de la rééducation des patients.
Link to this sectionEn quoi est-ce différent des autres tâches de vision par ordinateur ?#
L'estimation de pose est différente d'autres tâches de vision par ordinateur comme la détection d'objets et la segmentation d'instance. Ces tâches se concentrent principalement sur l'identification et la localisation d'objets au sein d'une image.
La détection d'objets, par exemple, trace des boîtes englobantes autour d'éléments comme des personnes, des véhicules ou des animaux pour indiquer leur présence et leur position. La segmentation d'instance va encore plus loin en délimitant la forme précise de chaque objet au niveau du pixel.
Cependant, ces deux méthodes se préoccupent principalement de ce qu'est l'objet et d'où il se trouve - elles ne fournissent aucune information sur la façon dont l'objet est positionné ou ce qu'il pourrait être en train de faire. C'est là que l'estimation de pose devient cruciale.
En identifiant des points clés sur le corps, comme les coudes, les genoux ou même une queue, l'estimation de pose peut interpréter la posture et le mouvement. Cela permet une compréhension plus approfondie des actions, des gestes et de la dynamique corporelle, y compris le mouvement dans l'espace 3D.
Link to this sectionComprendre le fonctionnement de l'estimation de pose#
Les modèles d'estimation de pose suivent généralement deux approches principales : ascendante (bottom-up) et descendante (top-down). Dans l'approche ascendante, le modèle détecte d'abord les points clés individuels, comme les coudes, les genoux ou les épaules, puis les regroupe pour déterminer à quelle personne ou objet ils appartiennent. En revanche, l'approche descendante commence par détecter chaque objet en premier (comme une personne dans l'image) puis localise les points clés pour cet objet spécifique.

Fig 2. Méthodes d'estimation de pose ascendante vs descendante.
Certains modèles plus récents, comme YOLO11, combinent les avantages des deux approches. Il conserve l'efficacité de la méthode ascendante en sautant l'étape de regroupement manuel, tout en tirant parti de la précision des systèmes descendants en détectant les personnes et en estimant leurs poses simultanément - dans un processus unique et rationalisé.
Link to this sectionEntraînement personnalisé de YOLO11 pour l'estimation de pose#
Pendant que nous parcourons le fonctionnement des modèles d'estimation de pose, tu te demandes peut-être : comment ces modèles apprennent-ils réellement à estimer la pose de différents objets ? C'est là que l'idée de l'entraînement personnalisé entre en jeu.
L'entraînement personnalisé signifie apprendre à un modèle à reconnaître des points clés spécifiques en utilisant tes propres données. Puisque construire un modèle à partir de zéro nécessite une grande quantité d'images étiquetées et beaucoup de temps, beaucoup choisissent l'apprentissage par transfert. Cela implique de commencer avec un modèle qui a déjà été entraîné sur un grand jeu de données, tel que le modèle d'estimation de pose YOLO11, qui est pré-entraîné sur le jeu de données COCO-Pose, puis de l'affiner avec tes propres données pour une tâche ou un cas d'utilisation spécifique.
Disons que tu travailles sur des poses de yoga - tu peux affiner YOLO11 en utilisant des images où chaque pose est étiquetée avec des points clés spécifiques à cette activité. Pour ce faire, tu auras besoin d'un jeu de données personnalisé d'images annotées sur lequel le modèle pourra apprendre.
Pendant l'entraînement, tu peux ajuster des paramètres comme la taille du lot (le nombre d'images traitées à la fois), le taux d'apprentissage (la vitesse à laquelle le modèle met à jour son apprentissage) et les époques (combien de fois le modèle parcourt le jeu de données) pour améliorer la précision. Cela rend beaucoup plus facile la construction de modèles d'estimation de pose adaptés à tes besoins spécifiques.
Link to this sectionApplications concrètes de l'estimation de pose#
Maintenant que nous avons discuté de ce qu'est l'estimation de pose et de son fonctionnement, regardons de plus près certains de ses cas d'utilisation dans le monde réel.
Link to this sectionUtiliser l'estimation de pose pour la physiothérapie#
L'estimation de pose devient progressivement un outil fiable dans l'industrie de la santé, en particulier en kinésithérapie. En utilisant l'IA et la vision par ordinateur, ces systèmes peuvent suivre la posture et les mouvements en temps réel et fournir des retours, similaires à ce qu'un kinésithérapeute proposerait.
Par exemple, un patient en convalescence après une opération du genou peut utiliser un système d'estimation de pose pour s'assurer qu'il fait correctement ses exercices de rééducation. Le système peut repérer tout mouvement incorrect et proposer des suggestions d'amélioration, aidant le patient à rester sur la bonne voie et à éviter les blessures.

Fig 3. Un exemple d'utilisation de YOLO11 pour la physiothérapie.
Au-delà de la rééducation, l'estimation de pose se fraye également un chemin dans les applications de fitness. Par exemple, quelqu'un qui s'entraîne à la maison peut utiliser l'application pour vérifier sa forme pendant les exercices. L'application peut fournir des retours en temps réel, comme ajuster l'angle d'un squat ou s'assurer que ton dos est droit pendant un soulevé de terre. Cela aide les utilisateurs à améliorer leur posture et à prévenir les blessures sans avoir besoin d'un coach.
Link to this sectionCapture de mouvement pour le divertissement rendue possible par l'estimation de pose#
L'estimation de pose a changé la façon dont la capture de mouvement fonctionne dans le divertissement, la rendant plus simple et plus accessible. Par le passé, la capture de mouvement nécessitait de placer des marqueurs sur le corps d'une personne et de les suivre avec des caméras spéciales, ce qui pouvait être complexe et coûteux.
Maintenant, avec les avancées en IA et en vision par ordinateur, nous pouvons utiliser des caméras classiques et des algorithmes pour suivre les mouvements du corps sans avoir besoin de marqueurs, rendant le processus plus efficace et précis, même en temps réel.
Un excellent exemple de ceci est AR (Réalité Augmentée) Poser de Disney. Cet outil amusant te permet de prendre une photo avec ton téléphone et d'avoir un personnage numérique qui copie ta pose en réalité augmentée. Il fonctionne en analysant ta pose sur la photo et en la faisant correspondre à un personnage 3D, créant un selfie AR amusant et personnalisé.

Fig 4. Un personnage AR imite la pose d'une personne en utilisant l'estimation de pose.
Link to this sectionRecherche sur le comportement social pilotée par l'estimation de pose animale#
Étudier le comportement animal aide les scientifiques à comprendre comment les animaux communiquent, trouvent des partenaires, prennent soin de leurs petits et vivent en groupe. Ces connaissances sont vitales pour protéger la faune et acquérir une compréhension plus profonde du monde naturel.
L'estimation de pose simplifie ce processus en suivant les mouvements et la posture des animaux en utilisant des images et des vidéos, sans attacher de capteurs ou de balises aux animaux. Ces systèmes peuvent surveiller automatiquement leurs poses, offrant des aperçus sur des comportements comme le toilettage, le jeu ou le combat.
Un exemple intéressant de ceci est l'utilisation par les scientifiques de l'estimation de pose pour étudier le comportement des singes. En fait, des chercheurs ont compilé des jeux de données comme OpenApePose, qui contient plus de 71 000 images étiquetées provenant de six espèces de singes.

Fig 5. Estimation de pose de singe.
Link to this sectionAvantages et inconvénients de l'estimation de pose#
Voici quelques-uns des principaux avantages que l'estimation de pose peut apporter à diverses industries :
- Évolutivité : Les systèmes d'estimation de pose peuvent être déployés sur une large gamme d'appareils, des smartphones aux configurations de caméras avancées, ce qui les rend hautement évolutifs et accessibles pour différents cas d'utilisation et environnements.
- Rentable : Puisque l'estimation de pose repose sur des caméras classiques et ne nécessite pas de capteurs ou de balises coûteux, cela peut être une solution plus rentable pour le suivi des mouvements dans les applications de recherche et commerciales.
- Surveillance continue : Les systèmes d'estimation de pose peuvent fournir un suivi continu en temps réel, permettant la surveillance des changements au fil du temps, que ce soit pour les progrès des patients en rééducation ou le suivi du comportement animal dans la nature.
Bien que les avantages de l'estimation de pose soient clairs dans divers domaines, il existe également certains défis à prendre en compte. Voici quelques limitations clés à garder à l'esprit :
-
Généralisation limitée : De nombreux modèles entraînés sur des jeux de données humains ne se généralisent pas bien aux animaux ou aux structures corporelles inhabituelles sans réentraînement sur des jeux de données spécifiques.
-
Limitations environnementales : Les performances peuvent se dégrader en cas de faible luminosité, de flou de mouvement rapide ou d'arrière-plans encombrés.
-
Haute sensibilité à l'occlusion : La précision peut chuter lorsque des parties du corps sont bloquées ou hors champ, surtout dans des scènes bondées ou lors du suivi de plusieurs personnes.
Link to this sectionPoints clés#
L'estimation de pose a fait un long chemin depuis ses débuts, évoluant de systèmes qui utilisaient des marqueurs à des outils percutants pilotés par des modèles d'apprentissage profond comme YOLO11. Qu'il s'agisse d'améliorer la kinésithérapie, d'alimenter des expériences AR interactives ou d'aider à la recherche sur la faune, l'estimation de pose change la façon dont les machines comprennent le mouvement et la posture. À mesure que la technologie continue d'avancer, surmonter ses limitations sera la clé pour débloquer encore plus d'utilisations pratiques et rendre les machines meilleures pour comprendre comment nous et d'autres êtres vivants bougeons.
Curieux à propos de l'IA ? Explore notre dépôt GitHub, connecte-toi avec notre communauté et consulte nos options de licence pour lancer ton projet de vision par ordinateur. Apprends-en plus sur des innovations comme l'IA dans le commerce de détail et la vision par ordinateur dans l'industrie logistique sur nos pages de solutions.






