Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Amélioration de l'estimation des points clés de la main avec Ultralytics YOLO11

Abirami Vina

6 min de lecture

5 mars 2025

Explorez l'estimation des points clés de la main basée sur l'IA avec la prise en charge de l'estimation de pose par Ultralytics YOLO11 dans des applications telles que la reconnaissance gestuelle en temps réel.

Récemment, les interprètes en langue des signes du Super Bowl ont beaucoup attiré l'attention. Lorsque vous les regardez chanter la chanson de votre artiste préféré à la télévision, vous pouvez les comprendre si vous connaissez la langue des signes, car votre cerveau traite leurs mouvements de mains. Mais que se passerait-il si un ordinateur pouvait faire de même ? Grâce aux solutions de suivi des mains basées sur l'IA, il est possible pour les machines de suivre et d'interpréter les mouvements des mains avec une précision impressionnante.

Au cœur de ces solutions se trouve la vision par ordinateur, un sous-domaine de l'IA qui permet aux machines de traiter et de comprendre les informations visuelles. En analysant des images et des vidéos, la Vision AI les aide à détecter des objets, à suivre des mouvements et à reconnaître des gestes complexes avec une précision remarquable.

Par exemple, les modèles de vision artificielle comme Ultralytics YOLO11 peuvent être entraînés pour détecter et analyser les points clés de la main en temps réel à l'aide de l'estimation de pose. Ce faisant, ces modèles peuvent être utilisés pour des applications telles que la reconnaissance gestuelle, la traduction de la langue des signes et les interactions AR/VR. 

Dans cet article, nous allons explorer comment YOLO11 permet le suivi des mains basé sur l'IA, les jeux de données utilisés pour l'entraînement et comment entraîner de manière personnalisée un modèle pour l'estimation de la pose de la main. Nous examinerons également les applications concrètes. Commençons !

Comprendre la détection des points clés de la main basée sur l'IA

L'IA peut être utilisée pour reconnaître et suivre les mouvements de la main dans les données visuelles en identifiant les points clés comme le poignet, le bout des doigts et les articulations des doigts. Une approche, connue sous le nom d'estimation de pose, aide les ordinateurs à comprendre le mouvement humain en cartographiant les points clés et en analysant leur évolution dans le temps. Cela permet aux systèmes d'IA d'interpréter la posture du corps, les gestes et les schémas de mouvement avec une grande précision.

Les modèles de vision par ordinateur rendent cela possible en analysant des images ou des vidéos pour identifier les points clés sur la main et suivre leur mouvement. Une fois ces points cartographiés, l'IA peut reconnaître les gestes en analysant les relations spatiales entre les points clés et la façon dont ils évoluent dans le temps. 

Par exemple, si la distance entre un pouce et un index diminue, l'IA peut l'interpréter comme un mouvement de pincement. De même, le suivi de la façon dont les points clés se déplacent en séquences aide à identifier les gestes complexes de la main et même à prédire les mouvements futurs.

__wf_reserved_inherit
Fig 1. Un exemple de reconnaissance des points clés d'une main à l'aide de la vision par ordinateur.

Il est intéressant de noter que l'estimation de la pose pour le suivi des mains a ouvert des possibilités passionnantes, du contrôle mains libres des appareils intelligents à l'amélioration de la précision robotique et à l'assistance dans les applications de soins de santé. Alors que l'IA et la vision par ordinateur continuent d'évoluer, le suivi des mains jouera probablement un rôle plus important pour rendre la technologie plus interactive, accessible et intuitive dans la vie de tous les jours.

Exploration de YOLO11 pour l'estimation de pose

Avant de nous plonger dans la création d'une solution pour le suivi des mains basé sur l'IA, examinons de plus près l'estimation de la pose et la façon dont YOLO11 prend en charge cette tâche de vision par ordinateur. Contrairement à la détection d'objets standard, qui identifie des objets entiers, l'estimation de la pose se concentre sur la détection de points de repère clés - tels que les articulations, les membres ou les bords - pour analyser le mouvement et la posture. 

Plus précisément, Ultralytics YOLO11 est conçu pour l'estimation de pose en temps réel. En tirant parti des méthodes descendantes et ascendantes, il détecte efficacement les personnes et estime les points clés en une seule étape, surpassant les modèles précédents en termes de vitesse et de précision.

Dès sa sortie, YOLO11 est pré-entraîné sur l'ensemble de données COCO-Pose et peut reconnaître les points clés du corps humain, notamment la tête, les épaules, les coudes, les poignets, les hanches, les genoux et les chevilles. 

__wf_reserved_inherit
Fig. 2. Utilisation de YOLO11 pour l'estimation de la pose humaine.

Au-delà de l'estimation de la pose humaine, YOLO11 peut être entraîné sur mesure pour détecter des points clés sur une variété d'objets, animés et inanimés. Cette flexibilité fait de YOLO11 une excellente option pour un large éventail d'applications.

Présentation du jeu de données Hand Keypoints

La première étape de la formation personnalisée d'un modèle consiste à collecter des données et à les annoter ou à trouver un ensemble de données existant qui correspond aux besoins du projet. Par exemple, l'ensemble de données Hand Keypoints est un bon point de départ pour la formation de modèles Vision AI pour le suivi des mains et l'estimation de la pose. Avec 26 768 images annotées, il élimine le besoin d'étiquetage manuel. 

Il peut être utilisé pour entraîner des modèles comme Ultralytics YOLO11 afin d'apprendre rapidement à détecter et à suivre les mouvements de la main. L'ensemble de données comprend 21 points clés par main, couvrant le poignet, les doigts et les articulations. De plus, les annotations de l'ensemble de données ont été générées avec Google MediaPipe, un outil de développement de solutions basées sur l'IA pour le traitement des médias en temps réel, garantissant une détection précise et fiable des points clés. 

__wf_reserved_inherit
Fig. 3. Les 21 points clés inclus dans le jeu de données Hand Keypoints.

L'utilisation d'un ensemble de données structuré comme celui-ci permet de gagner du temps et permet aux développeurs de se concentrer sur l'entraînement et le fine-tuning de leurs modèles au lieu de collecter et d'étiqueter des données. En fait, l'ensemble de données est déjà divisé en sous-ensembles d'entraînement (18 776 images) et de validation (7 992 images), ce qui facilite l'évaluation des performances du modèle. 

Comment entraîner YOLO11 pour l'estimation de la pose de la main

L'entraînement de YOLO11 pour l'estimation de la pose de la main est un processus simple, en particulier avec le package Python Ultralytics, qui facilite la configuration et l'entraînement du modèle. Étant donné que l'ensemble de données Hand Keypoints est déjà pris en charge dans le pipeline d'entraînement, il peut être utilisé immédiatement sans formatage supplémentaire, ce qui permet d'économiser du temps et des efforts.

Voici comment fonctionne le processus d'entraînement :

  • Configurer l'environnement : La première étape consiste à installer le package Python Ultralytics.
  • Charger l'ensemble de données Hand Keypoints : YOLO11 prend en charge cet ensemble de données nativement, il peut donc être téléchargé et préparé automatiquement.
  • Utiliser un modèle pré-entraîné : Vous pouvez commencer avec un modèle d'estimation de pose YOLO11 pré-entraîné, ce qui contribue à améliorer la précision et à accélérer le processus d'entraînement.
  • Entraîner le modèle : Le modèle apprend à détecter et à suivre les points clés de la main en effectuant plusieurs cycles d'entraînement.
  • Surveiller les performances : Le package Ultralytics fournit également des outils intégrés pour suivre les indicateurs clés comme la précision et la perte, ce qui permet de s’assurer que le modèle s’améliore au fil du temps.
  • Enregistrer et déployer : Une fois entraîné, le modèle peut être exporté et utilisé pour des applications de suivi de la main en temps réel.

Évaluation de votre modèle entraîné personnalisé

En parcourant les étapes de la création d'un modèle personnalisé, vous remarquerez que la surveillance des performances est essentielle. Outre le suivi des progrès pendant l'entraînement, l'évaluation du modèle après coup est cruciale pour s'assurer qu'il détecte et suit avec précision les points clés de la main. 

Les métriques de performance clés, telles que la précision, les valeurs de perte et la précision moyenne (mAP), aident à évaluer la performance du modèle. Le package Python Ultralytics fournit des outils intégrés pour visualiser les résultats et comparer les prédictions avec les annotations réelles, ce qui facilite l'identification des points à améliorer.

Pour mieux comprendre les performances du modèle, vous pouvez consulter les graphiques d'évaluation tels que les courbes de perte, les tracés de précision-rappel et les matrices de confusion, qui sont automatiquement générés dans les journaux d'entraînement. 

Ces graphiques aident à identifier les problèmes tels que le surapprentissage (lorsque le modèle mémorise les données d'entraînement mais a du mal avec les nouvelles données) ou le sous-apprentissage (lorsque le modèle ne parvient pas à apprendre suffisamment de modèles pour fonctionner avec précision) et guident les ajustements pour améliorer la précision. De plus, il est important de tester le modèle sur de nouvelles images ou vidéos pour voir comment il fonctionne dans des scénarios réels.

Applications des solutions de suivi des mains basées sur l'IA

Ensuite, passons en revue certaines des applications les plus marquantes de l'estimation des points clés de la main avec Ultralytics YOLO11.

Reconnaissance des gestes en temps réel avec YOLO11

Imaginez que vous puissiez régler le volume de votre téléviseur en agitant simplement la main ou naviguer dans un système domotique intelligent d'un simple glissement dans l'air. La reconnaissance gestuelle en temps réel, alimentée par YOLO11, rend ces interactions sans contact possibles en détectant avec précision les mouvements de la main en temps réel. 

Cela fonctionne en utilisant des caméras IA pour suivre les points clés de votre main et interpréter les gestes comme des commandes. Les caméras de détection de profondeur, les capteurs infrarouges ou même les webcams ordinaires capturent les mouvements de la main, tandis que YOLO11 peut traiter les données pour reconnaître différents gestes. Par exemple, un tel système peut faire la différence entre un glissement pour changer de chanson, un pincement pour zoomer ou un mouvement circulaire pour régler le volume.

Détection des points clés de la main basée sur l'IA pour la reconnaissance de la langue des signes

Les solutions d'IA pour le suivi des mains peuvent faciliter la communication entre une personne sourde et une personne qui ne connaît pas la langue des signes. Par exemple, les appareils intelligents intégrés à des caméras et à YOLO11 peuvent être utilisés pour traduire instantanément la langue des signes en texte ou en parole. 

Grâce aux avancées comme YOLO11, les outils de traduction de la langue des signes deviennent plus précis et accessibles. Cela a un impact sur des applications telles que la technologie d'assistance, les services de traduction en direct et les plateformes éducatives. L'IA peut aider à combler les lacunes de communication et à promouvoir l'inclusion dans les lieux de travail, les écoles et les espaces publics.

Vision par ordinateur pour le suivi des mains : Amélioration des expériences de RA et de RV

Avez-vous déjà joué à un jeu de réalité virtuelle (RV) où vous pouviez saisir des objets sans utiliser de manette ? Le suivi des mains, rendu possible par la vision par ordinateur, permet aux utilisateurs d'interagir naturellement dans des environnements de réalité augmentée (RA) et de RV. 

__wf_reserved_inherit
Fig 4. Le suivi des mains est un élément clé des applications de RA et de RV.

Grâce à l'estimation des points clés de la main à l'aide de modèles tels qu'Ultralytics YOLO11, l'IA suit les mouvements en temps réel, permettant des gestes tels que pincer, saisir et balayer. Cela améliore les jeux, la formation virtuelle et la collaboration à distance, rendant les interactions plus intuitives. À mesure que la technologie de suivi des mains s'améliore, la réalité augmentée et la réalité virtuelle seront encore plus immersives et réalistes. 

Principaux points à retenir

L'estimation des points clés de la main avec Ultralytics YOLO11 rend les solutions de suivi de la main basées sur l'IA plus accessibles et fiables. De la reconnaissance gestuelle en temps réel à l'interprétation de la langue des signes et aux applications AR/VR, la vision par ordinateur ouvre de nouvelles possibilités dans l'interaction homme-machine.

De plus, des processus de formation personnalisée et de réglage fin rationalisés aident les développeurs à créer des modèles efficaces pour diverses utilisations concrètes. À mesure que la technologie de vision par ordinateur évolue, nous pouvons nous attendre à encore plus d'innovations dans des domaines comme la santé, la robotique, les jeux et la sécurité.

Interagissez avec notre communauté et explorez les avancées de l'IA sur notre dépôt GitHub. Découvrez l'impact de l'IA dans la fabrication et de la vision par ordinateur dans le secteur de la santé grâce à nos pages de solutions. Explorez nos plans de licence et commencez votre parcours dans l'IA dès aujourd'hui !

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers