Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
IA de vision

La Vision AI permet la technologie de reconnaissance gestuelle sans contact

Explore comment la vision par ordinateur alimente la technologie de reconnaissance gestuelle pour détecter, suivre et comprendre les gestes de la main dans diverses applications.

ABAbirami Vina
4 min read
La Vision AI alimentant la reconnaissance gestuelle sans contact

À mesure que la technologie évolue, notre façon d'interagir avec elle évolue également. Les premières machines dépendaient d'efforts physiques et de commandes mécaniques, tandis que l'informatique moderne a introduit les écrans tactiles et la saisie vocale.

Désormais, la reconnaissance gestuelle fait partie de la prochaine étape, en utilisant des mouvements naturels comme interface utilisateur. Un simple signe de la main, un pincement ou un geste rapide permet déjà de contrôler des applications, des écrans et des machines.

Cette interaction sans contact peut être alimentée par la vision par ordinateur, une branche de l'IA qui aide les machines à voir et à interpréter ce qu'une caméra capture. Les systèmes d'IA de vision peuvent être intégrés dans des smartphones, des casques de réalité virtuelle (VR) et de réalité augmentée (AR), des voitures et des appareils domestiques intelligents, où les gestes peuvent remplacer les tapotements, les clics et les boutons pour une expérience utilisateur plus fluide.

Le contrôle sans contact devient de plus en plus courant dans la vie quotidienne. Dans les lieux de travail et les espaces partagés, éviter le contact physique peut améliorer l'hygiène et la sécurité. De nombreux produits numériques s'orientent également vers une interaction mains libres, et les gestes offrent un moyen simple et intuitif de contrôler les appareils sans les toucher.

Dans cet article, nous explorerons ce qu'est la reconnaissance gestuelle, comment la vision par ordinateur la rend plus précise et où elle est utilisée dans des applications réelles. Commençons !

Link to this sectionQu'est-ce que la reconnaissance gestuelle ?#

La reconnaissance gestuelle est une technologie de détection qui permet aux machines de comprendre les gestes humains, tels que les signes de la main ou les mouvements du corps, et de les convertir en actions numériques. Au lieu de tapoter sur un écran ou d'appuyer sur des boutons, les utilisateurs peuvent contrôler les appareils par des mouvements simples et naturels.

Cela rend les interactions plus intuitives, ce qui explique pourquoi la saisie basée sur les gestes est adoptée dans de nombreux systèmes de contrôle pilotés par l'apprentissage automatique et l'IA. En particulier, la reconnaissance des gestes de la main est l'une des formes de reconnaissance gestuelle les plus utilisées, et elle repose souvent sur la vision par ordinateur.

En termes simples, une solution d'IA de vision peut repérer les mains dans un flux de caméra, suivre la façon dont elles bougent ou changent de forme, et faire correspondre ces modèles à un geste connu pour déclencher une action à l'écran.

Un élément clé de ces solutions est un modèle de vision par ordinateur, qui est entraîné sur des jeux de données d'images ou de vidéos étiquetées montrant différents gestes de la main. Grâce à des données d'entraînement diversifiées et une évaluation minutieuse, le modèle peut mieux se généraliser auprès de différents utilisateurs, conditions d'éclairage et arrière-plans, l'aidant à reconnaître les gestes de manière plus fiable dans des environnements réels.

Données utilisées pour entraîner un modèle de vision par ordinateur à détecter des points clés de gestes

Fig 1. Données utilisées pour entraîner un modèle de vision par ordinateur à détecter les points clés d'un geste (Source)

Link to this sectionExploration des différents types de gestes et de l'interaction homme-machine#

Avant d'examiner de plus près le rôle que joue la vision par ordinateur dans la reconnaissance gestuelle, prenons un peu de recul et examinons les types de gestes que ces systèmes reconnaissent généralement.

Dans la plupart des cas, les gestes se divisent en deux catégories : statiques et dynamiques. Les gestes statiques sont des poses de main fixes, comme un pouce levé, un signe d'arrêt ou un signe de paix. Comme ils n'impliquent aucun mouvement, ils peuvent souvent être reconnus à partir d'une seule image.

Pendant ce temps, les gestes dynamiques impliquent un mouvement dans le temps, comme faire signe ou balayer dans les airs. Pour les reconnaître, un système d'IA de vision doit analyser plusieurs images afin de pouvoir suivre le mouvement de la main et comprendre la direction et le timing du geste.

Link to this sectionLe rôle des algorithmes de vision par ordinateur dans la reconnaissance gestuelle#

Les systèmes de reconnaissance gestuelle peuvent être construits de différentes manières. Certains systèmes de saisie utilisent des capteurs portables, tels que des gants ou des trackers montés au poignet, pour capturer le mouvement de la main.

Ces configurations peuvent être précises, mais elles ne sont pas toujours pratiques. Les appareils portables doivent être portés, configurés, chargés et entretenus, et ils peuvent sembler limitants dans les espaces partagés ou lors d'une utilisation quotidienne.

C'est pourquoi de nombreux systèmes de pointe s'appuient plutôt sur la vision par ordinateur. Avec des caméras RGB standard et des capteurs de profondeur ou de temps de vol, les appareils peuvent capturer les mouvements de la main et du corps en temps réel sans que les utilisateurs aient besoin de porter des dispositifs supplémentaires. Cela fait de la reconnaissance gestuelle basée sur la vision un excellent choix pour les smartphones, les voitures, les téléviseurs intelligents et les casques AR et VR.

Par exemple, des modèles de vision par ordinateur comme Ultralytics YOLO11 et le futur Ultralytics YOLO26 prennent en charge des tâches telles que la détection d'objets, le suivi d'objets et l'estimation de pose. Ces capacités peuvent être utilisées pour détecter les mains dans chaque image, suivre leur mouvement au fil du temps et cartographier des points clés comme le bout des doigts et les articulations. Cela permet de reconnaître des gestes tels qu'une paume levée pour mettre en pause, un pincement pour zoomer, un balayage pour naviguer dans les menus ou un geste de pointage pour sélectionner un élément en AR et VR.

Link to this sectionTâches de vision par ordinateur utilisées pour la reconnaissance de l'interaction homme-machine#

Voici un aperçu de certaines des tâches de vision par ordinateur clés utilisées dans la reconnaissance gestuelle :

  • Détection d'objets : Cette tâche est utilisée pour localiser les mains dans une image ou une vidéo, généralement en dessinant des boîtes englobantes autour d'elles. Elle aide le système à se concentrer sur la zone du geste et à ignorer les détails inutiles de l'arrière-plan.
  • Suivi d'objets : S'appuyant sur la détection d'objets, cette tâche suit les mains détectées à travers plusieurs images et maintient leur identité au fil du temps. Elle est particulièrement utile pour les gestes dynamiques, où le mouvement et la direction sont cruciaux.
  • Estimation de pose : Au lieu de se concentrer sur des boîtes englobantes, l'estimation de pose identifie des points clés sur la main, tels que le bout des doigts, les jointures et le poignet. Ces points de repère créent un squelette de main simple qui capture les positions des doigts et les mouvements subtils, permettant une classification plus détaillée des gestes.
  • Segmentation d'instance : Cette tâche vise à séparer chaque main de l'arrière-plan au niveau du pixel en générant un masque pour chaque main visible. Elle est utile dans les scènes encombrées, lorsque les mains se chevauchent ou lorsque plusieurs mains apparaissent dans l'image.

De nombreuses solutions d'IA de vision utilisent ces tâches ensemble dans le cadre d'un pipeline unique. Par exemple, un système peut commencer par la détection d'objets pour trouver les mains, puis utiliser le suivi pour les suivre à travers les images pour les gestes dynamiques.

Si le geste dépend du placement des doigts, l'estimation de pose peut ajouter des points clés pour plus de détails, tandis que la segmentation d'instance peut aider à isoler chaque main plus précisément dans des scènes encombrées ou lorsque plusieurs mains se chevauchent. Travaillant ensemble, ces étapes fournissent à la fois des informations sur la localisation et le mouvement, rendant la reconnaissance gestuelle plus précise et fiable.

Link to this sectionComment fonctionne la reconnaissance gestuelle basée sur la vision#

Maintenant que nous comprenons mieux les tâches de vision par ordinateur derrière la reconnaissance gestuelle, examinons étape par étape le fonctionnement d'un système basé sur la vision.

Un système typique commence par capturer une vidéo à partir d'une caméra, parfois accompagnée de données de profondeur si l'appareil le prend en charge. Les images sont ensuite prétraitées à l'aide du traitement d'image pour les rendre plus faciles à gérer de manière cohérente par le modèle, comme le redimensionnement, la stabilisation ou la réduction du bruit et du flou de mouvement.

Ensuite, le système identifie les mains dans l'image à l'aide de la détection ou de la segmentation et les suit au fil du temps à l'aide du suivi. Si l'application nécessite plus de détails, elle peut également exécuter une estimation de pose pour extraire des points clés comme le bout des doigts et les articulations. À l'aide de ces informations, le modèle classe le geste, qu'il s'agisse d'une pose d'une seule image comme un pouce levé ou d'un modèle de mouvement comme un balayage.

Enfin, le geste reconnu est mappé à une action dans l'interface, comme faire défiler, zoomer, sélectionner un élément, régler le volume ou contrôler des interactions AR et VR. Le pipeline exact peut varier, avec des applications plus simples utilisant moins d'étapes et des applications plus complexes combinant détection, suivi et estimation de pose pour une meilleure précision.

Link to this sectionApplications de la reconnaissance gestuelle basée sur la vision#

Ensuite, passons en revue la manière dont la reconnaissance gestuelle est utilisée dans les applications réelles pour comprendre les positions des mains.

Link to this sectionInteraction basée sur les gestes avec les systèmes d'infodivertissement automobile#

La reconnaissance gestuelle commence à apparaître dans les interfaces de véhicules intelligents, en particulier dans les systèmes d'infodivertissement. C'est un moyen pratique de contrôler certaines fonctionnalités avec des mouvements simples de la main, ce qui peut réduire la fréquence à laquelle les conducteurs doivent atteindre les écrans tactiles ou les boutons physiques. Par exemple, un geste rapide peut être utilisé pour régler le volume, gérer les appels ou naviguer dans les menus à l'écran.

Un conducteur effectuant des gestes de la main dans la zone de détection d'un système d'infodivertissement

Fig 2. Un conducteur effectuant des gestes de la main dans la zone de détection d'un système d'infodivertissement (Source)

Link to this sectionInteractions basées sur les gestes dans les jeux#

Dans le jeu et les expériences immersives, le contrôle basé sur les gestes change la façon dont les gens interagissent avec les mondes virtuels. Au lieu de s'appuyer uniquement sur des manettes ou des joysticks, les joueurs peuvent utiliser des mouvements naturels de la main pour naviguer dans les menus, ramasser des objets virtuels, contrôler des personnages ou déclencher des actions dans un jeu.

Jouer à des jeux en utilisant des gestes de la main

Fig 3. Jouer à des jeux en utilisant des gestes de la main (Source).

Ce type d'interaction sans contact peut sembler plus fluide, surtout en AR et VR. En conséquence, le suivi de la main et le contrôle gestuel deviennent des fonctionnalités courantes dans les casques VR et de réalité mixte.

Link to this sectionContrôle gestuel transparent pour les appareils domestiques intelligents#

Les appareils domestiques intelligents comme les téléviseurs intelligents, les enceintes et les lumières connectées commencent à prendre en charge le contrôle basé sur les gestes pour des actions rapides et sans contact. Avec un simple mouvement de la main, les utilisateurs peuvent allumer les lumières, régler le volume ou déclencher des commandes de base sans atteindre les interrupteurs ou les télécommandes.

Par exemple, dans les configurations de divertissement à domicile, les caméras de profondeur intégrées ou connectées peuvent reconnaître des gestes tels que balayer, pointer ou lever la main. Cela peut faciliter la navigation dans les menus, la modification des paramètres ou la confirmation des sélections à travers la pièce. En coulisses, les modèles de vision par ordinateur traitent le flux de la caméra en temps réel pour détecter et interpréter ces gestes.

Link to this sectionContrôle gestuel activé par l'intelligence artificielle dans la robotique#

Considérons une situation dans une usine où un travailleur doit guider un robot tout en portant des pièces, en portant des gants ou en se tenant à une distance de sécurité de l'équipement mobile. Dans ces contextes, atteindre des boutons ou un panneau de commande peut être lent, voire dangereux.

En revanche, les systèmes de contrôle basés sur les gestes peuvent être un moyen plus pratique et mains libres d'interagir avec ces machines. C'est particulièrement utile pour les robots collaboratifs, ou cobots, conçus pour travailler aux côtés des gens.

Au lieu de marcher jusqu'à un panneau de commande, les opérateurs peuvent utiliser des signaux manuels simples pour démarrer, arrêter ou guider un robot à distance. Cela réduit la dépendance aux commandes physiques et peut favoriser des flux de travail plus sûrs sur le lieu de travail.

Les systèmes de contrôle avancés basés sur la vision, permis par des modèles d'apprentissage profond ou des algorithmes d'apprentissage, peuvent également aller au-delà des commandes de base. Ils peuvent interpréter des mouvements de main plus fins et répondre en douceur à de petits changements de direction ainsi qu'à un guidage et une automatisation plus précis.

Une main robotique analysant le geste d'un utilisateur

Fig 4. Une main robotique analysant le geste d'un utilisateur (Source)

Link to this sectionAvantages et inconvénients de la technologie de reconnaissance gestuelle#

Voici quelques avantages clés de l'utilisation de la technologie de reconnaissance gestuelle :

  • Accessibilité améliorée : Les gestes peuvent offrir une alternative aux utilisateurs qui trouvent les claviers, les écrans tactiles ou les manettes difficiles à utiliser.
  • Fonctionne à distance : Les gestes peuvent être reconnus à travers une pièce, ce qui est utile pour les téléviseurs intelligents, les bornes et les appareils domestiques.
  • Flexible sur les appareils : Des ensembles de gestes similaires peuvent fonctionner sur les téléphones, les voitures, les écrans intelligents et les casques AR ou VR, rendant l'interaction cohérente.

En même temps, il existe quelques défis concrets qui peuvent affecter la précision et la cohérence. Voici quelques facteurs à prendre en compte :

  • Problèmes d'éclairage et de qualité de caméra : Une faible luminosité, les reflets, les ombres ou des caméras à basse résolution peuvent réduire les performances de reconnaissance. Cela peut, à son tour, impacter le contrôle de mouvement.
  • Variation entre les utilisateurs : Les gens effectuent naturellement les gestes différemment, et les différences de taille de main, de flexibilité des doigts ou d'accessoires peuvent affecter la précision.
  • Limitations de mouvement rapide : Les gestes rapides peuvent introduire un flou de mouvement ou empêcher le modèle de manquer des images clés, en particulier sur les caméras à faible fréquence d'images.

Link to this sectionPoints clés#

La technologie de reconnaissance gestuelle a dépassé les laboratoires de recherche et fait désormais partie des appareils et innovations du quotidien. Plus précisément, la vision par ordinateur permet le contrôle sans contact dans les jeux, la robotique, les maisons intelligentes et les systèmes automobiles. À mesure que les modèles de vision s'améliorent, ces interfaces sans contact deviendront probablement plus faciles à construire et plus largement utilisées.

Découvrez notre communauté et notre dépôt GitHub pour en savoir plus sur les modèles de vision par ordinateur. Explorez nos pages de solutions pour lire sur des applications comme l'IA en agriculture et la vision par ordinateur dans la logistique. Consultez nos options de licence et commencez à construire votre propre modèle d'IA de vision.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique