Apprends comment fonctionne l'estimation de la pose, ses applications dans le monde réel, et comment des modèles comme Ultralytics YOLO11 permettent aux machines d'interpréter les mouvements et la posture du corps.
Lorsque tu vois quelqu'un avachi ou debout, les épaules en arrière, tu sais immédiatement s'il a une mauvaise posture ou s'il est sûr de lui. Personne n'a besoin de te l'expliquer. C'est parce qu'avec le temps, nous avons naturellement appris à interpréter le langage corporel.
À force d'expérience et d'observation, notre cerveau est devenu très doué pour reconnaître la posture de divers objets, y compris les humains. Grâce aux progrès récents de l'intelligence artificielle (IA) et de la vision par ordinateur, un domaine qui permet aux machines d'interpréter les informations visuelles du monde, les machines commencent maintenant à apprendre et à reproduire cette capacité également.
L'estimation de la pose est une tâche de vision par ordinateur qui aide les machines à déterminer la position et l'orientation d'une personne ou d'un objet en regardant des images ou des vidéos. Pour ce faire, elle identifie les points clés du corps, comme les articulations et les membres, afin de comprendre comment quelqu'un, ou même quelque chose, se déplace.
Cette technologie est largement utilisée dans des domaines tels que le fitness, les soins de santé et l'animation. Dans les environnements de travail, par exemple, elle peut être utilisée pour surveiller la posture des employés et soutenir les initiatives de sécurité et de bien-être. Les modèles de vision par ordinateur comme Ultralytics YOLO11 rendent cela possible en estimant les poses humaines en temps réel.
Dans cet article, nous allons examiner de plus près l'estimation de la pose et son fonctionnement, ainsi que des cas d'utilisation réels où elle fait la différence. C'est parti !
La recherche sur l'estimation de la pose a commencé à la fin des années 1960 et dans les années 1970. Au fil des ans, les approches de cette tâche de vision par ordinateur sont passées des mathématiques et de la géométrie de base à des méthodes plus avancées basées sur l'intelligence artificielle.
Au départ, les techniques dépendaient d'angles de caméra fixes et de points de référence connus. Plus tard, elles ont évolué pour inclure des modèles 3D et la correspondance des caractéristiques. Aujourd'hui, les modèles d'apprentissage profond comme YOLO11 peuvent détecter les positions du corps en temps réel à partir d'images ou de vidéos, ce qui rend l'estimation de la pose plus rapide et plus précise que jamais.
Au fur et à mesure que la technologie s'est améliorée, les chercheurs ont vu les applications potentielles de la possibilité de surveiller et de suivre les poses de divers objets, en particulier les humains et les animaux. L'estimation de la pose est particulièrement importante parce qu'elle permet aux outils d'intelligence artificielle de comprendre et de mesurer la posture et le mouvement d'une manière qui n'était pas possible auparavant.
Par exemple, elle permet aux ordinateurs de reconnaître les gestes pour une interaction mains libres, d'analyser les mouvements des athlètes pour améliorer leurs performances, d'alimenter des animations réalistes dans les jeux vidéo, et même de soutenir les soins de santé en suivant la progression du rétablissement des patients.
L'estimation de la pose est différente des autres tâches de vision par ordinateur telles que la détection d'objets et la segmentation d'instances. Ces tâches se concentrent principalement sur l'identification et la localisation d'objets dans une image.
La détection d'objets, par exemple, dessine des boîtes de délimitation autour d'éléments tels que des personnes, des véhicules ou des animaux pour indiquer leur présence et leur position. La segmentation des instances va encore plus loin en décrivant la forme précise de chaque objet au niveau des pixels.
Cependant, ces deux méthodes s'intéressent principalement à ce qu'est l'objet et à l'endroit où il se trouve - elles ne fournissent aucune information sur la façon dont l'objet est positionné ou sur ce qu'il pourrait être en train de faire. C'est là que l'estimation de la pose devient cruciale.
En identifiant des points clés du corps, tels que les coudes, les genoux ou même une queue, l'estimation de la pose peut interpréter la posture et le mouvement. Cela permet de mieux comprendre les actions, les gestes et la dynamique du corps, y compris les mouvements dans l'espace 3D.
Les modèles d'estimation de la pose suivent généralement deux approches principales : ascendante et descendante. Dans l'approche ascendante, le modèle détecte d'abord les points clés individuels, comme les coudes, les genoux ou les épaules, puis les regroupe pour déterminer à quelle personne ou à quel objet ils appartiennent. En revanche, l'approche descendante commence par détecter chaque objet (comme une personne sur l'image), puis localise les points clés de cet objet spécifique.
Certains modèles plus récents, comme YOLO11, combinent les avantages des deux approches. Ils conservent l'efficacité de la méthode ascendante en sautant l'étape du regroupement manuel, tout en tirant parti de la précision des systèmes descendants en détectant les personnes et en estimant leurs poses en une seule fois - dans un processus unique et rationalisé.
Alors que nous expliquons le fonctionnement des modèles d'estimation de la pose, tu te demandes peut-être : comment ces modèles apprennent-ils à estimer la pose de différents objets ? C'est là que l'idée d'une formation personnalisée entre en jeu.
L'apprentissage personnalisé consiste à apprendre à un modèle à reconnaître des points clés spécifiques à l'aide de tes propres données. Comme la construction d'un modèle à partir de zéro nécessite une grande quantité d'images étiquetées et un temps important, de nombreuses personnes optent pour l'apprentissage par transfert. Cela consiste à partir d'un modèle qui a déjà été entraîné sur un grand ensemble de données, comme le modèle d'estimation de la pose YOLO11 , qui est pré-entraîné sur l'ensemble de données COCO-Pose, puis à l'affiner avec tes propres données pour une tâche ou un cas d'utilisation spécifique.
Disons que tu travailles sur des poses de yoga - tu peux affiner YOLO11 en utilisant des images où chaque pose est étiquetée avec des points clés spécifiques à cette activité. Pour ce faire, tu auras besoin d'un ensemble de données personnalisées d'images annotées à partir desquelles le modèle pourra apprendre.
Pendant l'entraînement, tu peux ajuster des paramètres comme la taille du lot (le nombre d'images traitées en même temps), le taux d'apprentissage (la vitesse à laquelle le modèle met à jour son apprentissage) et les époques (le nombre de fois que le modèle parcourt l'ensemble de données) afin d'améliorer la précision. Il est ainsi beaucoup plus facile de construire des modèles d'estimation de la pose adaptés à tes besoins spécifiques.
Maintenant que nous avons discuté de ce qu'est l'estimation de la pose et de son fonctionnement, examinons de plus près certains de ses cas d'utilisation dans le monde réel.
L'estimation de la pose devient progressivement un outil fiable dans l'industrie de la santé, en particulier dans la thérapie physique. Grâce à l'IA et à la vision par ordinateur, ces systèmes peuvent suivre la posture et les mouvements en temps réel et fournir un retour d'information, similaire à ce que proposerait un kinésithérapeute.
Par exemple, un patient qui se remet d'une opération du genou peut utiliser un système d'estimation de la pose pour s'assurer qu'il effectue correctement ses exercices de rééducation. Le système peut repérer tout mouvement incorrect et proposer des suggestions d'amélioration, ce qui aide le patient à rester sur la bonne voie et à éviter les blessures.
Au-delà de la rééducation, l'estimation de la pose fait également son chemin dans les applis de fitness. Par exemple, une personne qui s'entraîne à la maison peut utiliser l'application pour vérifier sa forme pendant les exercices. L'appli peut donner des commentaires en temps réel, comme ajuster l'angle d'un squat ou s'assurer que ton dos est droit pendant un deadlift. Cela aide les utilisateurs à améliorer leur forme et à prévenir les blessures sans avoir besoin d'un entraîneur.
L'estimation de la pose a changé la façon dont la capture de mouvement fonctionne dans le domaine du divertissement, en la rendant plus simple et plus accessible. Auparavant, la capture de mouvements nécessitait de placer des marqueurs sur le corps d'une personne et de les suivre à l'aide de caméras spéciales, ce qui pouvait s'avérer délicat et coûteux.
Aujourd'hui, grâce aux progrès de l'IA et de la vision par ordinateur, nous pouvons utiliser des caméras ordinaires et des algorithmes pour suivre les mouvements du corps sans avoir besoin de marqueurs, ce qui rend le processus plus efficace et plus précis, même en temps réel.
L'AR (réalité augmentée) Poser de Disney en est un excellent exemple. Cet outil amusant te permet de prendre une photo avec ton téléphone et de demander à un personnage numérique de copier ta pose en réalité augmentée. Il fonctionne en analysant ta pose sur la photo et en la faisant correspondre à un personnage en 3D, créant ainsi un selfie AR amusant et personnalisé.
Voici quelques-uns des principaux avantages que l'estimation de pose peut apporter à diverses industries :
Si les avantages de l'estimation de la pose sont évidents dans divers domaines, il y a aussi quelques défis à relever. Voici quelques limitations clés à garder à l'esprit :
L'estimation de la pose a parcouru un long chemin depuis ses débuts, évoluant de systèmes qui utilisaient des marqueurs à des outils impactants pilotés par des modèles d'apprentissage profond comme YOLO11. Qu'il s'agisse d'améliorer la thérapie physique, d'alimenter des expériences AR interactives ou d'aider à la recherche sur la faune, l'estimation de la pose change la façon dont les machines comprennent le mouvement et la posture. À mesure que la technologie continue de progresser, il sera essentiel de s'attaquer à ses limites pour débloquer encore plus d'utilisations pratiques et faire en sorte que les machines comprennent mieux comment nous et les autres êtres vivants nous déplaçons.
Curieux de l'IA ? Explore notre dépôt GitHub, connecte-toi avec notre communauté et consulte nos options de licence pour démarrer ton projet de vision par ordinateur. Apprends-en plus sur des innovations comme l'IA dans le commerce de détail et la vision par ordinateur dans le secteur de la logistique sur nos pages de solutions.
Commence ton voyage avec le futur de l'apprentissage automatique.