Découvrez comment fonctionne l'estimation de la pose, ses applications dans le monde réel et comment des modèles comme Ultralytics YOLO11 permettent aux machines d'interpréter les mouvements et la posture du corps.

Découvrez comment fonctionne l'estimation de la pose, ses applications dans le monde réel et comment des modèles comme Ultralytics YOLO11 permettent aux machines d'interpréter les mouvements et la posture du corps.
Lorsque vous voyez une personne avachie ou debout, les épaules en arrière, vous savez immédiatement si elle a une mauvaise posture ou si elle est sûre d'elle. Personne n'a besoin de vous l'expliquer. En effet, au fil du temps, nous avons naturellement appris à interpréter le langage corporel.
À force d'expérience et d'observation, notre cerveau est devenu très doué pour reconnaître la posture de divers objets, y compris les humains. Grâce aux progrès récents de l'intelligence artificielle (IA) et de la vision par ordinateur, un domaine qui permet aux machines d'interpréter les informations visuelles du monde, les machines commencent maintenant à apprendre et à reproduire cette capacité.
L'estimation de la pose est une tâche de vision par ordinateur qui aide les machines à déterminer la position et l'orientation d'une personne ou d'un objet en regardant des images ou des vidéos. Pour ce faire, elle identifie les points clés du corps, comme les articulations et les membres, afin de comprendre comment une personne, ou même un objet, se déplace.
Cette technologie est largement utilisée dans des domaines tels que le fitness, les soins de santé et l'animation. Dans les environnements de travail, par exemple, elle peut être utilisée pour surveiller la posture des employés et soutenir les initiatives en matière de sécurité et de bien-être. Des modèles de vision par ordinateur comme Ultralytics YOLO11 rendent cela possible en estimant les postures humaines en temps réel.
Dans cet article, nous allons examiner de plus près l'estimation de la pose et son fonctionnement, ainsi que des cas d'utilisation concrets où elle fait la différence. Commençons par le commencement !
La recherche sur l'estimation de la pose a débuté à la fin des années 1960 et dans les années 1970. Au fil des ans, les approches de cette tâche de vision par ordinateur sont passées des mathématiques et de la géométrie de base à des méthodes plus avancées basées sur l'intelligence artificielle.
Au départ, les techniques reposaient sur des angles de caméra fixes et des points de référence connus. Plus tard, elles ont évolué pour inclure des modèles 3D et la correspondance des caractéristiques. Aujourd'hui, des modèles d'apprentissage profond comme YOLO11 peuvent détecter les positions du corps en temps réel à partir d'images ou de vidéos, ce qui rend l'estimation de la pose plus rapide et plus précise que jamais.
Au fur et à mesure que la technologie s'améliorait, les chercheurs ont vu les applications potentielles de la possibilité de surveiller et de suivre les poses de divers objets, en particulier les humains et les animaux. L'estimation de la pose est particulièrement importante car elle permet aux outils d'intelligence artificielle de comprendre et de mesurer la posture et le mouvement d'une manière qui n'était pas possible auparavant.
Par exemple, elle permet aux ordinateurs de reconnaître les gestes pour une interaction mains libres, d'analyser les mouvements des athlètes pour améliorer leurs performances, de créer des animations réalistes dans les jeux vidéo et même de soutenir les soins de santé en suivant les progrès du rétablissement des patients.
L'estimation de la pose diffère d'autres tâches de vision artificielle telles que la détection d'objets et la segmentation d'instances. Ces tâches se concentrent principalement sur l'identification et la localisation d'objets dans une image.
La détection d'objets, par exemple, dessine des boîtes de délimitation autour d'éléments tels que des personnes, des véhicules ou des animaux pour indiquer leur présence et leur position. La segmentation des instances va plus loin en définissant la forme précise de chaque objet au niveau du pixel.
Cependant, ces deux méthodes s'intéressent principalement à la nature de l'objet et à l'endroit où il se trouve - elles ne fournissent aucune information sur la position de l'objet ou sur ce qu'il pourrait être en train de faire. C'est là que l'estimation de la pose devient cruciale.
En identifiant des points clés du corps, tels que les coudes, les genoux ou même la queue, l'estimation de la pose permet d'interpréter la posture et le mouvement. Cela permet de mieux comprendre les actions, les gestes et la dynamique du corps, y compris les mouvements dans l'espace 3D.
Les modèles d'estimation de la pose suivent généralement deux approches principales : ascendante et descendante. Dans l'approche ascendante, le modèle détecte d'abord les points clés individuels, comme les coudes, les genoux ou les épaules, puis les regroupe pour déterminer à quelle personne ou à quel objet ils appartiennent. En revanche, l'approche descendante commence par détecter chaque objet (par exemple une personne dans l'image), puis localise les points clés de cet objet spécifique.
Certains modèles plus récents, comme YOLO11, combinent les avantages des deux approches. Ils conservent l'efficacité de la méthode ascendante en supprimant l'étape du regroupement manuel, tout en tirant parti de la précision des systèmes descendants en détectant les personnes et en estimant leur position en une seule fois, dans le cadre d'un processus unique et rationalisé.
Alors que nous examinons le fonctionnement des modèles d'estimation de la pose, vous vous demandez peut-être comment ces modèles apprennent à estimer la pose de différents objets. C'est là que l'idée d'un apprentissage personnalisé entre en jeu.
L'apprentissage personnalisé consiste à apprendre à un modèle à reconnaître des points clés spécifiques à l'aide de vos propres données. Étant donné que la création d'un modèle à partir de zéro nécessite une grande quantité d'images étiquetées et beaucoup de temps, de nombreuses personnes optent pour l'apprentissage par transfert. Il s'agit de partir d'un modèle qui a déjà été entraîné sur un grand ensemble de données, comme le modèle d'estimation de la pose YOLO11, qui est pré-entraîné sur l'ensemble de données COCO-Pose, puis de l'affiner avec vos propres données pour une tâche ou un cas d'utilisation spécifique.
Imaginons que vous travailliez sur des poses de yoga. Vous pouvez affiner YOLO11 en utilisant des images où chaque pose est étiquetée avec des points clés spécifiques à cette activité. Pour ce faire, vous aurez besoin d'un ensemble personnalisé d'images annotées à partir desquelles le modèle pourra apprendre.
Pendant l'apprentissage, vous pouvez ajuster des paramètres tels que la taille du lot (le nombre d'images traitées en même temps), le taux d'apprentissage (la vitesse à laquelle le modèle met à jour son apprentissage) et les époques (le nombre de fois que le modèle parcourt l'ensemble de données) afin d'améliorer la précision. Il est ainsi beaucoup plus facile de construire des modèles d'estimation de la pose adaptés à vos besoins spécifiques.
Maintenant que nous avons expliqué ce qu'est l'estimation de la pose et comment elle fonctionne, examinons de plus près certains de ses cas d'utilisation dans le monde réel.
L'estimation de la posture devient progressivement un outil fiable dans le secteur des soins de santé, en particulier dans le domaine de la kinésithérapie. Grâce à l'intelligence artificielle et à la vision par ordinateur, ces systèmes peuvent suivre la posture et les mouvements en temps réel et fournir un retour d'information, comme le ferait un physiothérapeute.
Par exemple, un patient qui se remet d'une opération du genou peut utiliser un système d'estimation des poses pour s'assurer qu'il effectue correctement ses exercices de rééducation. Le système peut repérer les mouvements incorrects et proposer des suggestions d'amélioration, ce qui aide le patient à rester sur la bonne voie et à éviter les blessures.
Au-delà de la rééducation, l'estimation de la pose fait également son chemin dans les applications de fitness. Par exemple, une personne qui s'entraîne chez elle peut utiliser l'application pour vérifier sa forme pendant les exercices. L'application peut donner un retour d'information en temps réel, comme ajuster l'angle d'un squat ou s'assurer que le dos est droit pendant un soulevé de terre. Cela permet aux utilisateurs d'améliorer leur forme et de prévenir les blessures sans avoir recours à un entraîneur.
L'estimation de la pose a changé la façon dont la capture de mouvement fonctionne dans le domaine du divertissement, en la rendant plus simple et plus accessible. Auparavant, la capture de mouvements nécessitait de placer des marqueurs sur le corps d'une personne et de les suivre à l'aide de caméras spéciales, ce qui pouvait s'avérer délicat et coûteux.
Aujourd'hui, grâce aux progrès de l'IA et de la vision par ordinateur, nous pouvons utiliser des caméras ordinaires et des algorithmes pour suivre les mouvements du corps sans avoir besoin de marqueurs, ce qui rend le processus plus efficace et plus précis, même en temps réel.
L'AR (Augmented Reality) Poser de Disney en est un bon exemple. Cet outil amusant vous permet de prendre une photo avec votre téléphone et de demander à un personnage numérique de copier votre pose en réalité augmentée. Il analyse votre pose sur la photo et la fait correspondre à un personnage en 3D, créant ainsi un selfie AR amusant et personnalisé.
Voici quelques-uns des principaux avantages que l'estimation de la pose peut apporter à diverses industries :
Si les avantages de l'estimation de la pose sont évidents dans de nombreux domaines, il y a aussi des difficultés à prendre en compte. Voici quelques limitations clés à garder à l'esprit :
L'estimation de la pose a parcouru un long chemin depuis ses débuts, évoluant de systèmes qui utilisaient des marqueurs à des outils percutants pilotés par des modèles d'apprentissage profond tels que YOLO11. Qu'il s'agisse d'améliorer la thérapie physique, d'alimenter des expériences AR interactives ou d'aider la recherche sur la faune, l'estimation de la pose change la façon dont les machines comprennent le mouvement et la posture. À mesure que la technologie progresse, il sera essentiel de s'attaquer à ses limites pour débloquer encore plus d'utilisations pratiques et faire en sorte que les machines comprennent mieux comment nous et les autres êtres vivants nous déplaçons.
Curieux de l'IA ? Explorez notre dépôt GitHub, entrez en contact avec notre communauté et consultez nos options de licence pour démarrer votre projet de vision par ordinateur. Pour en savoir plus sur des innovations telles que l 'IA dans le commerce de détail et la vision par ordinateur dans le secteur de la logistique, consultez nos pages consacrées aux solutions.