En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Des applications de fitness au suivi des patients, découvrez comment la vision par ordinateur répond à la question suivante : l'IA peut-elle détecter les actions humaines dans le monde réel ?
La vie quotidienne est remplie de petits mouvements auxquels nous ne pensons que rarement. Traverser une pièce, s'asseoir à un bureau ou saluer un ami peut nous sembler sans effort, mais les détecter avec l'IA est bien plus compliqué. Ce qui vient naturellement à l'homme se traduit par quelque chose de beaucoup plus complexe lorsqu'une machine essaie de le comprendre.
Cette capacité est connue sous le nom de reconnaissance de l'activité humaine (HAR) et permet aux ordinateurs de détecter et d'interpréter des schémas dans le comportement humain. Une application de fitness est un excellent exemple de HAR en action. En suivant les pas et les routines d'entraînement, elle montre comment l'IA peut surveiller les activités quotidiennes.
Constatant le potentiel de la reconnaissance des actions humaines, de nombreuses industries ont commencé à adopter cette technologie. En fait, le marché de la reconnaissance des gestes humains devrait atteindre plus de 12,56 milliards de dollars d'ici 2033.
Une part importante de ces progrès est due à la vision par ordinateur, une branche de l'IA qui permet aux machines d'analyser des données visuelles, telles que des images et des vidéos. Grâce à la vision par ordinateur et à la reconnaissance d'images, la RAH est passée d'un concept de recherche à une partie pratique et passionnante des applications de pointe de l'IA.
Dans cet article, nous verrons ce qu'est le RAH, les différentes méthodes utilisées pour reconnaître les actions humaines et comment la vision par ordinateur permet de répondre à la question : L'IA peut-elle détecter des actions humaines dans des applications réelles ? Commençons par le commencement !
Qu'est-ce que la reconnaissance des actions humaines ?
La reconnaissance des actions humaines permet aux systèmes informatiques de comprendre les activités ou les actions humaines en analysant les mouvements du corps. Contrairement à la simple détection d' une personne sur une image, la reconnaissance de l'action humaine peut aider à identifier ce que fait la personne. Par exemple, faire la distinction entre la marche et la course, reconnaître un geste de la main ou remarquer qu'une personne tombe.
Le HAR repose sur des modèles de mouvement et de posture. Un léger changement dans la position des bras ou des jambes d'un être humain peut signaler toute une série d'actions. En capturant et en interprétant ces détails subtils, les systèmes HAR peuvent obtenir des informations significatives sur les mouvements du corps.
Pour y parvenir, la reconnaissance des actions humaines combine de multiples technologies telles que l'apprentissage automatique, les modèles d'apprentissage profond, la vision par ordinateur et le traitement des images, qui travaillent ensemble pour analyser les mouvements du corps et interpréter les actions humaines avec une plus grande précision.
Fig. 1. La reconnaissance de l'activité humaine fait appel à différentes branches de l'informatique(Source)
Les premiers systèmes HAR étaient beaucoup plus limités. Ils ne pouvaient gérer que quelques actions simples et répétitives dans des environnements contrôlés et se heurtaient souvent à des difficultés dans des situations réelles.
Aujourd'hui, grâce à l'intelligence artificielle et à de grandes quantités de données vidéo, le RAH a considérablement progressé en termes de précision et de robustesse. Les systèmes modernes peuvent reconnaître un large éventail d'activités avec beaucoup plus de précision, ce qui rend la technologie pratique dans des domaines tels que les soins de santé, la sécurité et les dispositifs interactifs.
Différentes méthodes de détection des actions humaines
Maintenant que nous comprenons mieux ce qu'est la reconnaissance des actions humaines, examinons les différentes façons dont les machines peuvent détecter les actions humaines.
Voici quelques-unes des méthodes les plus courantes :
Méthodes basées sur des capteurs : Les dispositifs intelligents tels que les accéléromètres, les wearables et les smartphones peuvent capturer des signaux directement à partir du corps humain. Ils peuvent indiquer des schémas de mouvement comme la marche, la course ou même l'immobilité. Un compteur de pas sur une smartwatch est un bon exemple de cette méthode.
Méthodes basées sur la vision : Les caméras associées à la vision par ordinateur analysent les images et les vidéos pour suivre l'apparence et les mouvements du corps image par image. Cela permet de reconnaître des activités plus complexes. Les téléviseurs à commande gestuelle ou les systèmes de jeu s'appuient sur cette méthode.
Méthodes multimodales : C'est la combinaison de capteurs et de caméras qui crée un système plus fiable, puisqu'une source peut confirmer ce que l'autre détecte. Par exemple, un dispositif portable peut enregistrer les mouvements tandis qu'une caméra vérifie la posture, une configuration souvent utilisée dans la détection des chutes pour les soins aux personnes âgées.
Le rôle des ensembles de données dans la reconnaissance de l'activité humaine
Pour tout modèle ou système HAR, les ensembles de données constituent le point de départ. Un ensemble de données HAR est une collection d'exemples, tels que des clips vidéo, des images ou des données de capteurs, qui capturent des actions telles que marcher, s'asseoir ou faire un signe de la main. Ces exemples sont utilisés pour entraîner les modèles d'IA à reconnaître des schémas dans les mouvements humains, qui peuvent ensuite être utilisés dans des applications réelles.
La qualité des données de formation influe directement sur les performances d'un modèle. Des données propres et cohérentes permettent au système de reconnaître plus facilement les actions avec précision.
C'est pourquoi les ensembles de données sont souvent prétraités avant la formation. Une étape courante est la normalisation, qui met les valeurs à l'échelle de manière cohérente afin de réduire les erreurs et d'éviter l'ajustement excessif (lorsqu'un modèle donne de bons résultats sur les données d'apprentissage mais peine à s'adapter aux nouvelles données).
Pour mesurer les performances des modèles au-delà de la formation, les chercheurs s'appuient sur des mesures d'évaluation et des ensembles de données de référence qui permettent des tests et des comparaisons équitables. Des collections populaires telles que UCF101, HMDB51 et Kinetics comprennent des milliers de clips vidéo étiquetés pour la détection d'actions humaines. Du côté des capteurs, les ensembles de données recueillis à partir de smartphones et d'appareils portables fournissent des signaux de mouvement précieux qui rendent les modèles de reconnaissance plus robustes dans différents environnements.
Fig. 2. Aperçu d'un ensemble de données de reconnaissance d'activités humaines.(Source)
Comment la vision par ordinateur facilite la reconnaissance de l'activité humaine
Parmi les différentes méthodes de détection des actions humaines, la vision par ordinateur est rapidement devenue l'une des plus populaires et des plus étudiées. Son principal avantage est qu'elle permet d'extraire de riches détails directement des images et des vidéos. En examinant les pixels image par image et en analysant les modèles de mouvement, elle peut reconnaître des activités en temps réel sans que les personnes aient besoin de porter des dispositifs supplémentaires.
Les progrès récents dans le domaine de l'apprentissage profond, en particulier les réseaux neuronaux convolutifs (CNN), qui sont conçus pour analyser les images, ont rendu la vision par ordinateur plus rapide, plus précise et plus fiable.
Par exemple, des modèles de vision artificielle de pointe largement utilisés, comme Ultralytics YOLO11, s'appuient sur ces avancées. YOLO11 prend en charge des tâches telles que la détection d'objets, la segmentation d'instances, le suivi de personnes sur des images vidéo et l'estimation de poses humaines, ce qui en fait un excellent outil pour la reconnaissance de l'activité humaine.
Vue d'ensemble d'Ultralytics YOLO11
Ultralytics YOLO11 est un modèle d'intelligence artificielle conçu pour la vitesse et la précision. Il prend en charge les principales tâches de vision artificielle telles que la détection et le suivi d'objets, ainsi que l'estimation de la pose. Ces capacités sont particulièrement utiles pour la reconnaissance de l'activité humaine.
La détection d'objets identifie et localise les personnes dans une scène, le suivi suit leurs mouvements à travers les images vidéo pour reconnaître les séquences d'action, et l'estimation de la pose cartographie les principales articulations du corps humain pour distinguer des activités similaires ou détecter des changements soudains tels qu'une chute.
Par exemple, le modèle permet de faire la différence entre une personne assise tranquillement, une autre qui se lève et une autre qui lève les bras pour applaudir. Ces actions simples de la vie quotidienne peuvent sembler similaires à première vue, mais elles ont des significations très différentes lorsqu'elles sont analysées en séquence.
Fig. 3. Utilisation de Ultralytics YOLO11 pour l'estimation de la pose.(Source)
Applications de la vision par ordinateur et de la HAR dans le monde réel
Examinons maintenant de plus près comment la reconnaissance de l'activité humaine par la vision par ordinateur est appliquée dans des cas d'utilisation réels qui ont un impact sur notre vie quotidienne.
Santé et bien-être
Dans le domaine de la santé, de petits changements dans les mouvements peuvent fournir des informations utiles sur l'état d'une personne. Par exemple, le trébuchement d'un patient âgé ou l'angle d'un membre pendant la rééducation peuvent révéler des risques ou des progrès. Il est souvent facile de passer à côté de ces signes par des moyens traditionnels, tels que les examens de santé.
YOLO11 peut aider en utilisant l'estimation de la pose et l'analyse d'image pour surveiller les patients en temps réel. Il peut être utilisé pour détecter les chutes, suivre les exercices de récupération et observer les activités quotidiennes telles que la marche ou les étirements. Parce qu'il fonctionne par analyse visuelle sans nécessiter de capteurs ou d'appareils portables, il offre un moyen simple de recueillir des informations précises qui facilitent les soins aux patients.
Fig. 4. Suivi des mouvements du corps à l'aide du support de YOLO11 pour l'estimation de la pose.(Source)
Sécurité et surveillance
Les systèmes de sécurité reposent sur la détection rapide d'activités humaines inhabituelles, telles qu'une personne qui flâne, court dans une zone interdite ou fait preuve d'une agressivité soudaine. Ces signes passent souvent inaperçus dans les environnements très fréquentés où les agents de sécurité ne peuvent pas tout surveiller manuellement. C'est là que la vision par ordinateur et YOLO11 entrent en jeu.
YOLO11 facilite le contrôle de la sécurité grâce à la vidéosurveillance en temps réel qui permet de détecter les mouvements suspects et d'envoyer des alertes instantanées. Il contribue à la sécurité des foules dans les espaces publics et renforce la détection des intrusions dans les zones privées.
Grâce à cette approche, les agents de sécurité peuvent travailler avec des systèmes de vision artificielle, créant ainsi une interaction et un partenariat entre l'homme et l'ordinateur qui permet des réponses plus rapides et plus opportunes en cas d'activités suspectes.
Avantages et inconvénients de l'utilisation de la vision par ordinateur pour le HAR
Voici quelques-uns des avantages de l'utilisation de la vision par ordinateur pour la reconnaissance de l'activité humaine :
Évolutivité : Une fois mis en place, le même système de reconnaissance peut surveiller automatiquement plusieurs personnes à la fois, ce qui le rend utile pour l'automatisation dans les établissements de santé, les usines et les espaces publics.
Traitement en temps réel : Les solutions Vision AI peuvent être utilisées pour analyser les flux vidéo au fur et à mesure, ce qui permet de réagir plus rapidement.
Suivi non invasif : Contrairement aux wearables ou aux capteurs, il n'est pas nécessaire de porter des appareils, ce qui permet d'analyser le comportement de manière naturelle et sans effort.
Si l'utilisation de la vision par ordinateur pour le RAH présente de nombreux avantages, il y a aussi des limites à prendre en compte. Voici quelques facteurs à prendre en compte :
Le respect de la vie privée : La surveillance vidéo peut soulever des questions relatives à la protection des données et au consentement, en particulier dans des environnements sensibles tels que les domiciles ou les lieux de travail.
Biais potentiels : si les ensembles de données d'entraînement manquent de diversité, les algorithmes peuvent mal interpréter les actions de certains groupes de personnes, ce qui conduit à des résultats injustes ou inexacts.
Sensibilité à l'environnement : La précision peut diminuer en raison d'un mauvais éclairage, d'un arrière-plan encombré ou de personnes partiellement cachées, ce qui signifie que les systèmes doivent être conçus avec soin.
Principaux enseignements
L'intelligence artificielle et la vision par ordinateur permettent aux machines de reconnaître les actions humaines avec plus de précision et en temps réel. En analysant les images vidéo et les modèles de mouvement, ces systèmes peuvent identifier les gestes quotidiens et les changements soudains. Au fur et à mesure que la technologie s'améliore, la reconnaissance de l'activité humaine sort des laboratoires de recherche et devient un outil pratique pour les soins de santé, la sécurité et les applications quotidiennes.