Qu'est-ce qu'OpenPose ? Exploration d'une étape importante dans l'estimation de pose
Explore comment OpenPose peut être utilisé pour l'estimation de pose dans les applications de vision par ordinateur. Découvre ses fonctionnalités et son importance dans la vision par IA.

De nos jours, les images et les caméras sont partout : intégrées à nos téléphones, à nos maisons et même dans les espaces publics. Nous comptons sur elles non seulement pour capturer des moments, mais aussi pour nous aider à comprendre et à interagir avec le monde qui nous entoure.
En coulisses, la vision par ordinateur, un sous-domaine de l'intelligence artificielle (IA), rend cela possible en permettant aux machines d'interpréter des données visuelles. Elle permet aux systèmes de détecter des objets, de reconnaître des visages et de suivre des mouvements, jouant un rôle clé dans de nombreuses technologies que nous utilisons au quotidien.
Grâce aux récentes avancées en IA, les modèles de vision par ordinateur peuvent désormais analyser et extraire des données et des perspectives plus complexes. Un exemple en est l'estimation de pose, une tâche de vision par ordinateur axée sur la compréhension du mouvement humain.
Elle fonctionne en identifiant des points clés sur le corps, tels que les épaules, les coudes et les genoux, dans des images ou des vidéos. Cela permet d'analyser la façon dont les gens bougent, facilitant ainsi des applications dans le suivi de la condition physique, l'animation, la santé, et bien plus encore.
Parmi les nombreux outils développés pour l'estimation de pose, OpenPose se distingue comme une avancée majeure. Créé par des chercheurs du Perceptual Computing Lab de l'université Carnegie Mellon, il fut l'un des premiers systèmes open-source capables de détecter des poses corporelles complètes, y compris les mains, les pieds et les points clés du visage, pour plusieurs personnes en temps réel en utilisant simplement une caméra (avec jusqu'à 135 points clés par personne).
Dans cet article, nous explorerons OpenPose, son fonctionnement et sa signification en tant qu'étape clé de la vision par ordinateur.

Fig 1. Estimation de pose multi-personnes utilisant OpenPose.
Link to this sectionUn regard sur l'histoire de l'estimation de pose#
Avant que l'IA ne soit largement adoptée, le suivi du mouvement humain dans les vidéos nécessitait l'utilisation d'équipements spécialisés. Dans des secteurs comme le cinéma et l'animation, les acteurs portaient souvent des combinaisons avec des marqueurs réfléchissants afin que les caméras puissent capturer leurs mouvements dans un environnement de studio contrôlé.
Bien que ces techniques de capture de mouvement basées sur des marqueurs fussent précises, elles étaient aussi coûteuses et limitées à des configurations spécifiques. À mesure que la vision par ordinateur progressait, les chercheurs ont cherché des moyens de suivre le mouvement du corps sans utiliser de marqueurs. Ils utilisaient des bords, des contours et des modèles pour trouver les formes humaines dans les images.
Ces premiers systèmes fonctionnaient dans des instances simples et directes mais peinaient face à des scénarios du monde réel. Ils donnaient souvent de piètres résultats lorsque les gens bougeaient de manière inattendue ou lorsqu'il y avait plus d'une personne dans une image.
À la fin des années 2010, l'apprentissage profond a apporté un changement majeur à l'estimation de pose. Les modèles d'IA visuelle pouvaient être entraînés sur de grands ensembles de données de poses humaines. Au lieu de se fier aux bords et aux modèles, les systèmes apprenaient à reconnaître les articulations et la structure du corps en étudiant des milliers d'images étiquetées. Cela a rendu l'estimation de pose plus précise, flexible et percutante dans un éventail de contextes plus large.

Fig 2. L'évolution des modèles d'estimation de pose humaine de 2017 à 2023.
Link to this sectionOpenPose : Là où l'estimation de pose moderne a décollé#
OpenPose a été publié pour la première fois en 2017 et est capable d'estimer les poses de plusieurs personnes simultanément dans une seule image. Contrairement aux anciens systèmes, OpenPose ne nécessite pas de combinaisons ou de marqueurs spéciaux. Il fonctionne avec des caméras standards et peut traiter des images et des vidéos en temps réel. Ces fonctionnalités ont rendu l'estimation de pose plus accessible aux développeurs et aux chercheurs.
Les bases qu'OpenPose a posées pour la vision par ordinateur ont aidé d'autres personnes à construire des architectures plus récentes pour une variété d'autres applications. Aujourd'hui, les modèles d'IA visuelle tels qu'Ultralytics YOLOv8 et Ultralytics YOLO11, qui prennent en charge les tâches d'estimation de pose, offrent des résultats plus rapides et une latence réduite.

Fig 3. Utilisation de YOLO11 pour l'estimation de pose.
Cependant, OpenPose est un excellent point de départ si tu es curieux de savoir comment l'estimation de pose a évolué. Il a introduit des idées clés sur lesquelles de nombreux systèmes plus récents s'appuient encore aujourd'hui.
Link to this sectionLes capacités clés d'OpenPose#
Maintenant que nous comprenons mieux pourquoi OpenPose est important, examinons de plus près ce qu'il peut réellement faire.
Au cœur des capacités d'OpenPose se trouve ce qu'on appelle la détection de points clés. Les points clés sont des repères spécifiques sur le corps humain, comme le bout du nez, le centre des épaules, les coudes, les poignets, les hanches, les genoux et les chevilles. OpenPose peut détecter jusqu'à 135 de ces points par personne, y compris des zones détaillées comme les doigts et les traits du visage.
Lorsque ces points sont connectés, ils forment une représentation simplifiée du corps humain : tu peux imaginer cela comme un squelette numérique. Ce contour squelettique montre non seulement où se trouve une personne, mais aussi quelle est sa pose : qu'elle soit assise, debout, en train de faire coucou, de sourire ou de marcher. Les ordinateurs peuvent interpréter le mouvement humain visuellement en utilisant ces squelettes, tout comme nous comprenons instinctivement le langage corporel de quelqu'un.
Le suivi squelettique est particulièrement utile car il élimine le bruit de fond et les distractions, permettant au système de se concentrer purement sur la posture et le mouvement humains. Au lieu d'analyser chaque pixel, OpenPose se concentre sur des points significatifs qui racontent l'histoire de la façon dont une personne bouge ou interagit.
En extrayant ces informations structurées à partir d'images ou de vidéos quotidiennes, OpenPose permet de créer des applications qui réagissent aux gestes, surveillent l'activité physique, évaluent des signaux émotionnels ou même animent des personnages numériques.
Link to this sectionComment fonctionne OpenPose ?#
Voici un aperçu de la façon dont OpenPose détecte et connecte les points clés sur le corps humain à partir d'entrées visuelles :
- Commence avec une image : OpenPose prend une image unique à partir d'une photo, d'une vidéo ou d'un flux caméra en direct.
- Repère les parties importantes du corps : Le système cherche des points clés sur le corps, comme le nez, les coudes, les poignets, les genoux et les chevilles. Ils sont marqués là où le système est confiant qu'une partie du corps se situe.
- Détermine quelles parties vont ensemble : Ensuite, OpenPose vérifie comment les points clés sont connectés. Il utilise des calculs mathématiques pour décider quelles articulations appartiennent à la même personne - par exemple, en faisant correspondre un poignet au coude et à l'épaule droits.
- Dessine un squelette pour chaque personne : Après avoir regroupé les points clés, OpenPose les connecte en un "bonhomme bâton" qui montre la pose de chaque personne. Cela fonctionne même lorsque plusieurs personnes apparaissent dans la même image.
- Renvoie les données de pose : Enfin, il fournit les positions exactes de tous les points clés détectés. Ceux-ci peuvent être utilisés pour suivre le mouvement, reconnaître des gestes ou créer des outils interactifs, le tout en temps réel.

Fig 4. Détection et suivi des points clés humains utilisant OpenPose.
Link to this sectionApplications de l'estimation de pose dans divers secteurs utilisant OpenPose#
OpenPose a été l'un des premiers outils avancés à rendre l'estimation de pose pratique pour une variété de cas d'utilisation réels. Bien qu'il ne soit pas couramment utilisé dans les solutions de vision par ordinateur en temps réel aujourd'hui, il a joué un rôle important dans le façonnement des travaux initiaux dans des domaines comme le sport, le divertissement, l'éducation et la sécurité.
Examinons de plus près comment il a aidé à ouvrir la voie dans ces domaines.
Link to this sectionEstimation de pose avec OpenPose pour le fitness et le sport#
Lorsque tu regardes le baseball, il est facile de comprendre ce qui se passe : tu peux instantanément reconnaître un lancer, un swing ou un vol de base. En tant qu'humains, nous lisons intuitivement les mouvements du corps et leur donnons du sens sans grand effort. Mais pour les machines, reconnaître ces actions est beaucoup plus complexe. Elles ont besoin d'informations précises sur la façon dont chaque partie du corps se déplace dans l'espace.
OpenPose a représenté une avancée substantielle dans ce domaine de la vision par ordinateur. C'était un outil pratique pour analyser la forme athlétique dans une variété de contextes.
De nombreux projets de recherche ont utilisé OpenPose pour décomposer des mouvements comme les swings et les sauts, en classant même des actions de baseball spécifiques basées sur la façon dont les joueurs bougeaient. Parce qu'il fonctionnait dans des environnements ouverts avec une vidéo standard, il a permis aux chercheurs de tester comment de tels systèmes pourraient fonctionner dans des scénarios réels d'entraînement ou de coaching.
Ces premières études ont aidé à jeter les bases des outils de suivi de performance maintenant utilisés dans la technologie sportive avancée.

Fig 5. Un regard sur un pipeline de classification d'action de baseball utilisant OpenPose.
Link to this sectionUtiliser OpenPose dans les systèmes de sécurité et de sûreté#
De même, les chercheurs ont également utilisé OpenPose pour explorer comment le suivi de pose basé sur la vidéo pouvait soutenir la surveillance de sécurité. Il a été testé dans la détection de comportements tels que les chutes, les gestes inattendus ou les modèles de mouvement dans les espaces publics.
Parce qu'il fonctionnait avec des caméras standards, OpenPose a rendu l'expérimentation précoce plus accessible dans des environnements comme les hôpitaux et les centres de transport. Ces études ont aidé à stimuler le développement de modèles plus récents maintenant utilisés dans la surveillance, la détection de chutes et les systèmes d'intervention d'urgence.

Fig 6. Détection de chute activée par OpenPose.
Link to this sectionAvantages et inconvénients d'OpenPose#
Voici un aperçu de certains des avantages qu'OpenPose offre :
- Utile pour la recherche et le prototypage : Il a été largement utilisé dans la recherche académique, en particulier dans des domaines comme l'interaction homme-machine, la biomécanique et l'analyse comportementale.
- Support multi-plateforme : Il peut fonctionner sur Windows, Linux et macOS, avec un support pour les unités centrales de traitement (CPU) et les unités de traitement graphique (GPU).
- Capacité de traitement hors ligne : Il peut fonctionner dans des environnements sans accès à Internet, ce qui le rend idéal pour des contextes sensibles à la confidentialité comme la santé ou l'éducation.
Bien qu'OpenPose ait été une avancée majeure, il comporte également des limitations techniques qu'il est important de garder à l'esprit. Voici certains des défis clés associés à OpenPose :
- Exigences de traitement élevées : Exécuter OpenPose en temps réel nécessite un GPU puissant et des ressources informatiques importantes.
- Sensible à l'environnement : La performance peut diminuer en cas de faible luminosité, dans des espaces bondés ou lorsque les angles de caméra ne sont pas idéaux.
- Lourd par rapport aux modèles plus récents : Par rapport aux modèles d'estimation de pose plus récents, OpenPose est relativement volumineux et plus lent. Il n'est pas bien adapté au déploiement sur des appareils aux ressources limitées comme les smartphones, les tablettes ou les systèmes embarqués.
Link to this sectionPoints clés#
OpenPose a joué un rôle important dans la démocratisation de l'estimation de pose. Il a montré que le suivi des mouvements corporels pouvait être effectué avec une simple caméra, sans dépendre de combinaisons ou d'équipements spécialisés.
Il a jeté les bases de nombreuses applications pratiques dans la santé, l'éducation, le divertissement et la recherche. Bien que les modèles plus récents offrent désormais des vitesses plus rapides et des performances plus légères, OpenPose reste un point de référence clé pour comprendre comment l'estimation de pose a évolué.
Rejoins notre communauté et visite notre dépôt GitHub pour en savoir plus sur l'IA. Si tu cherches à créer tes propres solutions de vision par ordinateur, explore nos options de licence. Découvre aussi comment la vision par ordinateur dans la santé et l'IA dans la logistique ont un impact !






