Qu'est-ce qu'OpenPose ? Les fondements de l'estimation de la pose

De nos jours, les images et les caméras sont omniprésentes : intégrées à nos téléphones, à nos maisons et même aux espaces publics. Nous comptons sur elles non seulement pour capturer des moments, mais aussi pour nous aider à comprendre et à interagir avec le monde qui nous entoure.

En coulisses, la vision par ordinateur, un sous-domaine de l'intelligence artificielle (IA), rend cela possible en permettant aux machines d'interpréter les données visuelles. Elle permet aux systèmes de detect objets, de reconnaître des visages et de track mouvements, jouant ainsi un rôle clé dans de nombreuses technologies que nous utilisons tous les jours.

Grâce aux récentes avancées de l'IA, les modèles de vision par ordinateur peuvent désormais analyser et extraire des données et des informations plus complexes. Un exemple en est l'estimation de pose, une tâche de vision par ordinateur axée sur la compréhension du mouvement humain.

Il fonctionne en identifiant les points clés du corps, tels que les épaules, les coudes et les genoux, dans les images ou les vidéos. Cela permet d'analyser la façon dont les gens bougent, ce qui rend possible des applications dans le suivi de la condition physique, l'animation, les soins de santé, et plus encore.

Parmi les nombreux outils développés pour l'estimation de pose, OpenPose se distingue comme une avancée majeure. Créé par des chercheurs du Perceptual Computing Lab de l'Université Carnegie Mellon, il a été l'un des premiers systèmes open source capables de détecter les poses complètes du corps, y compris les mains, les pieds et les points clés du visage, pour plusieurs personnes en temps réel en utilisant uniquement une caméra (avec jusqu'à 135 points clés par personne).

Dans cet article, nous allons explorer OpenPose, son fonctionnement et son importance en tant que jalon dans la vision par ordinateur.

Fig. 1. Estimation de pose multi-personnes à l'aide d'OpenPose.

‍

Un aperçu de l'histoire de l'estimation de pose

Avant que l'IA ne soit largement adoptée, le suivi des mouvements humains dans les vidéos impliquait l'utilisation d'équipements spécialisés. Dans des industries comme le cinéma et l'animation, les acteurs portaient souvent des combinaisons avec des marqueurs réfléchissants afin que les caméras puissent capturer leurs mouvements dans un environnement de studio contrôlé.

Si ces techniques de capture de mouvements à base de marqueurs étaient précises, elles étaient également coûteuses et limitées à des configurations spécifiques. Avec les progrès de la vision par ordinateur, les chercheurs ont cherché des moyens de track mouvements du corps sans utiliser de marqueurs. Ils ont utilisé les bords, les contours et les modèles pour trouver les formes humaines dans les images.

Ces premiers systèmes fonctionnaient dans des cas simples et directs, mais avaient du mal à gérer les scénarios du monde réel. Ils donnaient souvent de mauvais résultats lorsque les personnes se déplaçaient de manière inattendue ou lorsque plusieurs personnes apparaissaient dans une même image.

À la fin des années 2010, l'apprentissage profond a apporté un changement majeur à l'estimation de pose. Les modèles de vision IA pouvaient être entraînés sur de grands ensembles de données de poses humaines. Au lieu de s'appuyer sur les bords et les modèles, les modèles ont appris à reconnaître les articulations et la structure du corps en étudiant des milliers d'images étiquetées. Cela a rendu l'estimation de pose plus précise, flexible et percutante dans un plus large éventail de contextes.

Fig. 2. L'évolution des modèles d'estimation de pose humaine de 2017 à 2023.

‍

OpenPose : là où l'estimation de pose moderne a décollé

OpenPose a été lancé en 2017 et est capable d'estimer les poses de plusieurs personnes simultanément dans une seule image. Contrairement aux anciens systèmes, OpenPose ne nécessite pas de combinaisons ou de marqueurs spéciaux. Il fonctionne avec des caméras standard et peut traiter des images et des vidéos en temps réel. Ces caractéristiques ont rendu l'estimation de pose plus accessible aux développeurs et aux chercheurs.

Les fondements posés par OpenPose pour la vision par ordinateur ont permis à d'autres de construire de nouvelles architectures pour une variété d'autres applications. Aujourd'hui, des modèles de vision artificielle comme Ultralytics YOLO8 et Ultralytics YOLO11 qui prennent en charge les tâches d'estimation de la pose offrent des résultats plus rapides et une latence plus faible.

Fig. 3. Utilisation de YOLO11 pour l'estimation de la pose.

‍

Cependant, OpenPose est un excellent point de départ si vous êtes curieux de savoir comment l'estimation de pose a évolué. Il a introduit des idées clés sur lesquelles de nombreux systèmes plus récents s'appuient encore aujourd'hui.

Principales capacités d'OpenPose

Maintenant que nous comprenons mieux pourquoi OpenPose est important, examinons de plus près ce qu'il peut réellement faire.

Au cœur des capacités d'OpenPose se trouve ce que l'on appelle la détection des points clés. Les points clés sont des repères spécifiques sur le corps humain, comme le bout du nez, le centre des épaules, les coudes, les poignets, les hanches, les genoux et les chevilles. OpenPose peut detect jusqu'à 135 de ces points par personne, y compris des zones détaillées comme les doigts et les traits du visage.

Lorsque ces points sont connectés, ils forment une représentation simplifiée du corps humain - vous pouvez le considérer comme un squelette numérique. Ce contour squelettique montre non seulement où se trouve une personne, mais aussi sa posture : qu'elle soit assise, debout, qu'elle fasse signe de la main, qu'elle sourie ou qu'elle marche. Les ordinateurs peuvent interpréter visuellement les mouvements humains à l'aide de ces squelettes, tout comme nous comprenons instinctivement le langage corporel de quelqu'un.

Le suivi squelettique est particulièrement utile, car il élimine le bruit de fond et les distractions, permettant au système de se concentrer uniquement sur la posture et le mouvement humains. Au lieu d'analyser chaque pixel, OpenPose se concentre sur les points significatifs qui racontent l'histoire de la façon dont une personne se déplace ou interagit.

En extrayant ces informations structurées d'images ou de vidéos du quotidien, OpenPose permet de créer des applications qui répondent aux gestes, surveillent l'activité physique, évaluent les signaux émotionnels ou même animent des personnages numériques.

Comment fonctionne OpenPose ?

Voici un aperçu de la manière dont OpenPose détecte et relie les points clés du corps humain à partir d'une entrée visuelle :

Commence par une image : OpenPose prend une seule image à partir d'une photo, d'une vidéo ou d'un flux de caméra en direct.
‍
Repère les parties importantes du corps : Le système recherche les points clés du corps, comme le nez, les coudes, les poignets, les genoux et les chevilles. Ils sont marqués partout où le système est sûr qu'une partie du corps est située.
‍
Détermine quelles parties vont ensemble : ensuite, OpenPose vérifie comment les points clés sont connectés. Il utilise des calculs mathématiques pour déterminer quels joints appartiennent à la même personne - par exemple, en faisant correspondre un poignet au coude et à l’épaule droits.
Dessine un squelette pour chaque personne : Après avoir regroupé les points clés, OpenPose les relie en une « figure en bâton » qui montre la pose de chaque personne. Cela fonctionne même lorsque plusieurs personnes apparaissent dans la même image.
‍
Renvoie les données de pose : Enfin, il fournit les positions exactes de tous les points clés détectés. Ceux-ci peuvent être utilisés pour suivre les mouvements, reconnaître les gestes ou créer des outils interactifs - le tout en temps réel.

Fig. 4. Détection et suivi des points clés du corps humain à l'aide d'OpenPose.

‍

Applications de l'estimation de pose dans divers secteurs utilisant OpenPose

OpenPose a été l'un des premiers outils avancés qui a rendu l'estimation de pose pratique pour divers cas d'utilisation réels. Bien qu'il ne soit pas couramment utilisé dans les solutions de vision par ordinateur en temps réel aujourd'hui, il a joué un rôle important dans la formation des premiers travaux dans des domaines tels que le sport, le divertissement, l'éducation et la sécurité.

Examinons de plus près comment il a contribué à ouvrir la voie dans ces domaines.

Estimation de pose avec OpenPose pour le fitness et le sport

Lorsque vous regardez un match de baseball, il est facile de comprendre ce qui se passe - vous pouvez instantanément reconnaître un lancer, un swing ou un vol de base. En tant qu'humains, nous lisons intuitivement les mouvements du corps et les comprenons sans trop d'efforts. Mais pour les machines, reconnaître ces actions est beaucoup plus complexe. Elles ont besoin d'informations précises sur la façon dont chaque partie du corps se déplace dans l'espace.

OpenPose a constitué une avancée considérable dans ce domaine de la vision par ordinateur. C'était un outil pratique pour analyser la forme athlétique dans divers contextes.

De nombreux projets de recherche ont utilisé OpenPose pour décomposer des mouvements comme les balancements et les sauts, allant même jusqu'à classer des actions spécifiques du baseball en fonction de la façon dont les joueurs bougeaient. Parce qu'il fonctionnait dans des environnements ouverts avec une vidéo standard, il a permis aux chercheurs de tester comment de tels systèmes pourraient fonctionner dans des scénarios d'entraînement ou de coaching réels.

Ces premières études ont contribué à jeter les bases des outils de suivi des performances désormais utilisés dans les technologies sportives avancées.

Fig. 5. Aperçu d'un pipeline de classification d'actions de baseball utilisant OpenPose.

‍

Utilisation d'OpenPose dans les systèmes de sécurité et de sûreté

De même, des chercheurs ont également utilisé OpenPose pour explorer comment le suivi de pose basé sur la vidéo pourrait soutenir la surveillance de la sécurité. Il a été testé dans la détection de comportements tels que les chutes, les gestes inattendus ou les schémas de mouvement dans les espaces publics.

Parce qu'il fonctionnait avec des caméras standard, OpenPose a rendu l'expérimentation précoce plus accessible dans des environnements tels que les hôpitaux et les centres de transport. Ces études ont contribué à stimuler le développement de nouveaux modèles désormais utilisés dans les systèmes de surveillance, de détection des chutes et d'intervention d'urgence.

Fig. 6. Détection de chutes grâce à OpenPose.

‍

Avantages et inconvénients d'OpenPose

Voici un aperçu de certains des avantages qu'offre OpenPose :

Utile pour la recherche et le prototypage : Il a été largement utilisé dans la recherche universitaire, en particulier dans des domaines tels que l'interaction homme-machine, la biomécanique et l'analyse comportementale.
‍
Prise en charge multiplateforme : Il peut fonctionner sous Windows, Linux et macOS, avec prise en charge des unités centrales (CPU) et des unités de traitement graphique (GPU).
‍
Capacité de traitement hors ligne : Il peut fonctionner dans des environnements sans accès à Internet, ce qui le rend idéal pour les paramètres sensibles à la confidentialité comme les soins de santé ou l'éducation.

Bien qu'OpenPose ait constitué une avancée majeure, il présente également des limitations techniques importantes à garder à l'esprit. Voici quelques-uns des principaux défis associés à OpenPose :

Exigences élevées en matière de traitement : L'exécution d'OpenPose en temps réel nécessite un GPU puissant et des ressources informatiques importantes.
‍
Sensible à l'environnement : Les performances peuvent diminuer en cas de faible luminosité, dans les espaces bondés ou lorsque les angles de caméra ne sont pas idéaux.
‍
Lourd comparé aux modèles plus récents : Comparé aux modèles d'estimation de pose plus récents, OpenPose est relativement volumineux et plus lent. Il n'est pas bien adapté au déploiement sur des appareils aux ressources limitées comme les smartphones, les tablettes ou les systèmes embarqués.

Principaux points à retenir

OpenPose a joué un rôle important en rendant l'estimation de pose plus accessible. Il a montré que le suivi des mouvements du corps pouvait être effectué avec une simple caméra, sans avoir recours à des combinaisons ou à un équipement spécialisé.

Il a jeté les bases de nombreuses applications pratiques dans les domaines de la santé, de l'éducation, du divertissement et de la recherche. Bien que les modèles plus récents offrent désormais des vitesses plus rapides et des performances plus légères, OpenPose reste un point de référence essentiel pour comprendre l'évolution de l'estimation de pose.

Rejoignez notre communauté et visitez notre dépôt GitHub pour en savoir plus sur l'IA. Si vous cherchez à créer vos propres solutions de vision par ordinateur, explorez nos options de licence. Découvrez également comment la vision par ordinateur dans le secteur de la santé et l'IA dans la logistique ont un impact !

Qu'est-ce qu'OpenPose ? Exploration d'une étape importante dans l'estimation de pose

Un aperçu de l'histoire de l'estimation de pose

OpenPose : là où l'estimation de pose moderne a décollé

Principales capacités d'OpenPose

Comment fonctionne OpenPose ?

Applications de l'estimation de pose dans divers secteurs utilisant OpenPose

Estimation de pose avec OpenPose pour le fitness et le sport

Utilisation d'OpenPose dans les systèmes de sécurité et de sûreté

Avantages et inconvénients d'OpenPose

Principaux points à retenir

En savoir plus dans cette catégorie

Apprentissage auto-supervisé pour le débruitage : une analyse étape par étape

Qu'est-ce que la correspondance d'images dans l'IA de la vision ? Une introduction rapide

Une introduction au domaine émergent de l'IA neuro-symbolique

Construisons ensemble l'avenir
de l'IA !

Qu'est-ce qu'OpenPose ? Exploration d'une étape importante dans l'estimation de pose

Un aperçu de l'histoire de l'estimation de pose

OpenPose : là où l'estimation de pose moderne a décollé

Principales capacités d'OpenPose

Comment fonctionne OpenPose ?

Applications de l'estimation de pose dans divers secteurs utilisant OpenPose

Estimation de pose avec OpenPose pour le fitness et le sport

Utilisation d'OpenPose dans les systèmes de sécurité et de sûreté

Avantages et inconvénients d'OpenPose

Principaux points à retenir

En savoir plus dans cette catégorie

Apprentissage auto-supervisé pour le débruitage : une analyse étape par étape

Qu'est-ce que la correspondance d'images dans l'IA de la vision ? Une introduction rapide

Une introduction au domaine émergent de l'IA neuro-symbolique

Construisons ensemble l'avenir de l'IA !

Construisons ensemble l'avenir
de l'IA !