En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Découvrez l'estimation des points clés de la main pilotée par l'IA grâce à la prise en charge par Ultralytics YOLO11 de l'estimation de la pose dans des applications telles que la reconnaissance gestuelle en temps réel.
Récemment, les interprètes en langue des signes présents au Super Bowl ont fait l'objet d'une grande attention. Lorsque vous les regardez chanter la chanson de votre artiste préféré à la télévision, vous pouvez les comprendre si vous connaissez la langue des signes, car votre cerveau traite les mouvements de leurs mains. Mais que se passerait-il si un ordinateur pouvait faire de même ? Grâce aux solutions de suivi des mains basées sur l'IA, il est possible pour les machines de suivre et d'interpréter les mouvements des mains avec une précision impressionnante.
Au cœur de ces solutions se trouve la vision artificielle, un sous-domaine de l'IA qui permet aux machines de traiter et de comprendre les informations visuelles. En analysant les images et les vidéos, la vision artificielle les aide à détecter des objets, à suivre des mouvements et à reconnaître des gestes complexes avec une précision remarquable.
Par exemple, des modèles de vision artificielle comme Ultralytics YOLO11 peuvent être entraînés à détecter et à analyser les points clés de la main en temps réel à l'aide de l'estimation de la pose. Ce faisant, ces modèles peuvent être utilisés pour des applications telles que la reconnaissance des gestes, la traduction en langue des signes et les interactions AR/VR.
Dans cet article, nous verrons comment YOLO11 permet le suivi des mains basé sur l'IA, les ensembles de données utilisés pour l'entraînement, et comment entraîner un modèle personnalisé pour l'estimation de la pose de la main. Nous nous pencherons également sur des applications réelles. Commençons par le commencement !
Comprendre la détection des points clés de la main basée sur l'IA
L'IA peut être utilisée pour reconnaître et suivre les mouvements de la main dans des données visuelles en identifiant des points clés tels que le poignet, le bout des doigts et les articulations des doigts. Une approche, connue sous le nom d'estimation de la pose, aide les ordinateurs à comprendre les mouvements humains en cartographiant les points clés et en analysant leur évolution dans le temps. Cela permet aux systèmes d'intelligence artificielle d'interpréter la posture du corps, les gestes et les schémas de mouvement avec une grande précision.
Les modèles de vision par ordinateur rendent cela possible en analysant des images ou des vidéos pour identifier des points clés sur la main et suivre leur mouvement. Une fois ces points cartographiés, l'IA peut reconnaître les gestes en analysant les relations spatiales entre les points clés et leur évolution dans le temps.
Par exemple, si la distance entre le pouce et l'index diminue, l'IA peut l'interpréter comme un mouvement de pincement. De même, le suivi du mouvement des points clés dans les séquences permet d'identifier les gestes complexes de la main et même de prédire les mouvements futurs.
Fig. 1. Exemple de reconnaissance des points clés d'une main à l'aide de la vision par ordinateur.
Il est intéressant de noter que l'estimation de la pose pour le suivi des mains a ouvert des possibilités intéressantes, allant du contrôle mains libres des appareils intelligents à l'amélioration de la précision robotique et à l'assistance dans les applications de soins de santé. À mesure que l'IA et la vision par ordinateur continuent d'évoluer, le suivi de la main jouera probablement un rôle plus important pour rendre la technologie plus interactive, plus accessible et plus intuitive dans la vie de tous les jours.
Exploration de YOLO11 pour l'estimation de la pose
Avant de voir comment créer une solution de suivi des mains basée sur l'IA, examinons de plus près l'estimation de la pose et la manière dont YOLO11 prend en charge cette tâche de vision par ordinateur. Contrairement à la détection d'objets standard, qui identifie des objets entiers, l'estimation de la pose se concentre sur la détection de points de repère clés - tels que les articulations, les membres ou les bords - afin d'analyser le mouvement et la posture.
Ultralytics YOLO11 est spécifiquement conçu pour l'estimation de la pose en temps réel. En s'appuyant sur des méthodes descendantes et ascendantes, il détecte efficacement les personnes et estime les points clés en une seule étape, surpassant les modèles précédents en termes de rapidité et de précision.
D'emblée, YOLO11 est pré-entraîné sur l'ensemble de données COCO-Pose et peut reconnaître des points clés du corps humain, notamment la tête, les épaules, les coudes, les poignets, les hanches, les genoux et les chevilles.
Fig. 2. Utilisation de YOLO11 pour l'estimation de la pose humaine.
Au-delà de l'estimation de la pose humaine, YOLO11 peut être entraîné sur mesure pour détecter des points clés sur une variété d'objets, animés ou inanimés. Cette flexibilité fait de YOLO11 une excellente option pour une large gamme d'applications.
Vue d'ensemble de l'ensemble de données Hand Keypoints
La première étape de l'entraînement personnalisé d'un modèle consiste à collecter des données et à les annoter ou à trouver un ensemble de données existant qui réponde aux besoins du projet. Par exemple, le jeu de données Hand Keypoints est un bon point de départ pour entraîner les modèles Vision AI au suivi des mains et à l'estimation de la pose. Avec 26 768 images annotées, il élimine le besoin d'étiquetage manuel.
Il peut être utilisé pour former des modèles comme Ultralytics YOLO11 afin d'apprendre rapidement à détecter et à suivre les mouvements de la main. L'ensemble de données comprend 21 points clés par main, couvrant le poignet, les doigts et les articulations. En outre, les annotations de l'ensemble de données ont été générées avec Google MediaPipe, un outil permettant de développer des solutions basées sur l'IA pour le traitement des médias en temps réel, ce qui garantit une détection précise et fiable des points clés.
Fig. 3. Les 21 points clés inclus dans l'ensemble de données Hand Keypoints.
L'utilisation d'un ensemble de données structuré comme celui-ci permet de gagner du temps et laisse les développeurs se concentrer sur l'entraînement et l'affinement de leurs modèles plutôt que sur la collecte et l'étiquetage des données. En fait, l'ensemble de données est déjà divisé en sous-ensembles d'entraînement (18 776 images) et de validation (7 992 images), ce qui facilite l'évaluation des performances du modèle.
Comment entraîner YOLO11 à l'estimation de la pose de la main ?
L'entraînement de YOLO11 pour l'estimation de la pose de la main est un processus simple, en particulier avec le package Python Ultralytics, qui facilite la configuration et l'entraînement du modèle. Le jeu de données Hand Keypoints étant déjà pris en charge dans le pipeline de formation, il peut être utilisé immédiatement sans formatage supplémentaire, ce qui permet d'économiser du temps et des efforts.
Voici comment fonctionne le processus de formation :
Configurer l'environnement: La première étape consiste à installer le paquetage Ultralytics Python.
Charger le jeu de données Hand Keypoints: YOLO11 supporte nativement ce jeu de données, il peut donc être téléchargé et préparé automatiquement.
Utiliser un modèle pré-entraîné : Vous pouvez commencer avec un modèle d'estimation de la pose YOLO11 pré-entraîné, ce qui permet d'améliorer la précision et d'accélérer le processus d'entraînement.
Entraîner le modèle : Le modèle apprend à détecter et à suivre les points clés de la main en passant par plusieurs cycles d'entraînement.
Contrôler les performances : Le progiciel Ultralytics fournit également des outils intégrés pour suivre des paramètres clés tels que la précision et les pertes, ce qui permet de s'assurer que le modèle s'améliore au fil du temps.
Enregistrez et déployez : Une fois formé, le modèle peut être exporté et utilisé pour des applications de suivi des mains en temps réel.
Évaluer votre modèle formé sur mesure
En suivant les étapes de la création d'un modèle personnalisé, vous remarquerez que le suivi des performances est essentiel. Outre le suivi des progrès réalisés au cours de la formation, l'évaluation du modèle par la suite est cruciale pour s'assurer qu'il détecte et suit avec précision les points clés de la main.
Des mesures de performance clés telles que la précision, les valeurs de perte et la précision moyenne (mAP) permettent d'évaluer les performances du modèle. Le package Ultralytics Python fournit des outils intégrés pour visualiser les résultats et comparer les prédictions avec des annotations réelles, ce qui permet de repérer plus facilement les domaines à améliorer.
Pour mieux comprendre les performances du modèle, vous pouvez consulter les graphiques d'évaluation tels que les courbes de perte, les diagrammes précision-rappel et les matrices de confusion, qui sont automatiquement générés dans les journaux d'apprentissage.
Ces graphiques permettent d'identifier des problèmes tels que le surajustement (lorsque le modèle mémorise les données d'entraînement mais éprouve des difficultés avec les nouvelles données) ou le sous-ajustement (lorsque le modèle ne parvient pas à apprendre des modèles suffisamment bien pour être performant) et de guider les ajustements afin d'améliorer la précision. Il est également important de tester le modèle sur de nouvelles images ou vidéos pour voir s'il fonctionne bien dans des scénarios réels.
Applications des solutions de suivi des mains basées sur l'IA
Reconnaissance des gestes en temps réel avec YOLO11
Imaginons que vous puissiez régler le volume de votre téléviseur d'un simple geste de la main ou naviguer dans un système domestique intelligent d'un simple mouvement de la main. La reconnaissance gestuelle en temps réel assurée par YOLO11 rend possible ces interactions sans contact en détectant avec précision les mouvements de la main en temps réel.
Il utilise des caméras d'intelligence artificielle pour suivre les points clés de votre main et interpréter les gestes comme des commandes. Des caméras à détection de profondeur, des capteurs infrarouges ou même des webcams ordinaires enregistrent les mouvements de la main, et YOLO11 peut traiter les données pour reconnaître différents gestes. Par exemple, un tel système peut faire la différence entre un glissement pour changer de chanson, un pincement pour zoomer ou un mouvement circulaire pour régler le volume.
Détection des points clés de la main basée sur l'IA pour la reconnaissance de la langue des signes
Les solutions d'IA pour le suivi des mains peuvent favoriser une communication transparente entre une personne sourde et une personne qui ne connaît pas la langue des signes. Par exemple, les appareils intelligents équipés de caméras et de YOLO11 peuvent être utilisés pour traduire instantanément la langue des signes en texte ou en parole.
Grâce à des avancées telles que YOLO11, les outils de traduction en langue des signes deviennent plus précis et plus accessibles. Cela a des répercussions sur des applications telles que les technologies d'assistance, les services de traduction en direct et les plateformes éducatives. L'IA peut contribuer à combler les lacunes en matière de communication et à promouvoir l'inclusion sur les lieux de travail, dans les écoles et dans les espaces publics.
Vision par ordinateur pour le suivi des mains : Améliorer les expériences AR et VR
Avez-vous déjà joué à un jeu de réalité virtuelle (VR) dans lequel vous pouviez saisir des objets sans utiliser de manette ? Le suivi des mains par vision artificielle rend cela possible en permettant aux utilisateurs d'interagir naturellement dans les environnements de réalité augmentée (RA) et de RV.
Fig. 4. Le suivi des mains est un élément clé des applications de réalité augmentée et de réalité virtuelle.
Grâce à l'estimation des points clés de la main à l'aide de modèles tels que Ultralytics YOLO11, l'IA suit les mouvements en temps réel, ce qui permet des gestes tels que le pincement, la saisie et le glissement. Cela améliore les jeux, la formation virtuelle et la collaboration à distance, en rendant les interactions plus intuitives. Avec l'amélioration de la technologie de suivi des mains, la réalité augmentée et la réalité virtuelle seront encore plus immersives et réalistes.
Principaux enseignements
L'estimation des points clés de la main avec Ultralytics YOLO11 rend les solutions de suivi de la main pilotées par l'IA plus accessibles et plus fiables. De la reconnaissance gestuelle en temps réel à l'interprétation du langage des signes et aux applications AR/VR, la vision par ordinateur ouvre de nouvelles perspectives en matière d'interaction homme-machine.
En outre, les processus rationalisés de formation personnalisée et de mise au point aident les développeurs à élaborer des modèles efficaces pour diverses utilisations dans le monde réel. Au fur et à mesure que la technologie de la vision par ordinateur évolue, nous pouvons nous attendre à de nouvelles innovations dans des domaines tels que les soins de santé, la robotique, les jeux et la sécurité.
Comment entraîner YOLO11 à l'estimation de la pose de la main ?
L'entraînement de YOLO11 pour l'estimation de la pose de la main est un processus simple, en particulier avec le package Python Ultralytics, qui facilite la configuration et l'entraînement du modèle. Le jeu de données Hand Keypoints étant déjà pris en charge dans le pipeline de formation, il peut être utilisé immédiatement sans formatage supplémentaire, ce qui permet d'économiser du temps et des efforts.
Voici comment fonctionne le processus de formation :