L'IA peut-elle detect actions humaines ? Reconnaissance des activités

La vie quotidienne est remplie de petits mouvements auxquels nous nous arrêtons rarement pour réfléchir. Marcher dans une pièce, s'asseoir à un bureau ou saluer un ami peut nous sembler facile, mais les détecter avec l'IA est beaucoup plus compliqué. Ce qui vient naturellement aux humains se traduit par quelque chose de beaucoup plus complexe lorsqu'une machine essaie de le comprendre.

Cette capacité est connue sous le nom de reconnaissance de l'activité humaine (HAR) et permet aux ordinateurs de detect et d'interpréter des schémas dans le comportement humain. Une application de fitness est un excellent exemple de HAR en action. En suivant les pas et les routines d'entraînement, elle montre comment l'IA peut surveiller les activités quotidiennes.

Voyant le potentiel de la reconnaissance d'activité humaine (RAH), de nombreuses industries ont commencé à adopter cette technologie. En fait, le marché de la reconnaissance d'activité humaine devrait atteindre plus de 12,56 milliards de dollars d'ici 2033.

Une partie importante de ces progrès est due à la vision par ordinateur, une branche de l'IA qui permet aux machines d'analyser des données visuelles, telles que des images et des vidéos. Grâce à la vision par ordinateur et à la reconnaissance d'images, la reconnaissance d'activité humaine est passée d'un concept de recherche à une partie pratique et passionnante des applications d'IA de pointe.

Dans cet article, nous verrons ce qu'est le RAH, les différentes méthodes utilisées pour reconnaître les actions humaines et comment la vision par ordinateur permet de répondre à la question : L'IA peut-elle detect actions humaines dans des applications réelles ? Commençons par le commencement !

Qu'est-ce que la reconnaissance d'actions humaines ?

La reconnaissance des actions humaines permet aux systèmes informatiques de comprendre les activités ou les actions humaines en analysant les mouvements du corps. Contrairement à la simple détection d'une personne dans une image, la reconnaissance des actions humaines peut aider à identifier ce que fait la personne. Par exemple, distinguer la marche de la course, reconnaître un signe de la main ou remarquer quand quelqu'un tombe.

Le fondement de la reconnaissance d'activité humaine (HAR) réside dans les schémas de mouvement et de posture. Un léger changement dans la position des bras ou des jambes d'une personne peut signaler diverses actions. En capturant et en interprétant ces détails subtils, les systèmes HAR peuvent obtenir des informations significatives à partir des mouvements du corps.

Pour ce faire, la reconnaissance des actions humaines combine plusieurs technologies telles que l'apprentissage automatique, les modèles d'apprentissage profond, la vision par ordinateur et le traitement d'image, qui travaillent ensemble pour analyser les mouvements du corps et interpréter les actions humaines avec une plus grande précision.

Fig. 1. La reconnaissance de l'activité humaine fait appel à différentes branches de l'informatique (Source : cell.com)

‍

Les premiers systèmes HAR étaient beaucoup plus limités. Ils ne pouvaient gérer que quelques actions simples et répétitives dans des environnements contrôlés et avaient souvent du mal dans des situations réelles.

Aujourd'hui, grâce à l'IA et à de grandes quantités de données vidéo, la reconnaissance d'activité humaine (HAR) a considérablement progressé en termes de précision et de robustesse. Les systèmes modernes peuvent reconnaître un large éventail d'activités avec une bien plus grande précision, ce qui rend la technologie pratique pour des domaines tels que la santé, la sécurité et les appareils interactifs.

Différentes méthodes de détection des actions humaines

Maintenant que nous comprenons mieux ce qu'est la reconnaissance des actions humaines, examinons les différentes façons dont les machines peuvent detect actions humaines.

Voici quelques-unes des méthodes courantes :

Méthodes basées sur des capteurs : Les appareils intelligents tels que les accéléromètres, les dispositifs portables et les smartphones peuvent capturer des signaux directement à partir du corps humain. Ils peuvent montrer des schémas de mouvement comme la marche, la course ou même l'immobilité. Un compteur de pas sur une montre intelligente est un excellent exemple de cette méthode.
Méthodes basées sur la vision : Les caméras associées à la vision par ordinateur analysent les images et les vidéos pour track apparence et les mouvements du corps image par image. Cela permet de reconnaître des activités plus complexes. Les téléviseurs à commande gestuelle ou les systèmes de jeu s'appuient sur cette méthode.
Méthodes multimodales : Il s'agit d'une combinaison de capteurs et de caméras qui crée un système plus fiable, car une source peut confirmer ce que l'autre détecte. Par exemple, un dispositif portable peut enregistrer un mouvement tandis qu'une caméra vérifie la posture, une configuration souvent utilisée dans la détection de chutes pour les personnes âgées.

Le rôle des jeux de données dans la reconnaissance de l'activité humaine

Pour tout modèle ou système HAR, les jeux de données sont le point de départ. Un jeu de données HAR est une collection d'exemples, tels que des clips vidéo, des images ou des données de capteurs, qui capturent des actions telles que la marche, la position assise ou les mouvements de la main. Ces exemples sont utilisés pour entraîner des modèles d'IA à reconnaître les schémas de mouvement humain, qui peuvent ensuite être appliqués dans des applications réelles.

La qualité des données d'entraînement affecte directement la performance d'un modèle. Des données propres et cohérentes permettent au système de reconnaître les actions avec précision.

C'est pourquoi les ensembles de données sont souvent prétraités avant l'entraînement. Une étape courante est la normalisation, qui met à l'échelle les valeurs de manière cohérente pour réduire les erreurs et éviter le surapprentissage (lorsqu'un modèle fonctionne bien sur les données d'entraînement mais a du mal avec les nouvelles données).

Pour mesurer les performances des modèles au-delà de l'entraînement, les chercheurs s'appuient sur des métriques d'évaluation et des ensembles de données de référence qui permettent des tests et des comparaisons équitables. Les collections populaires telles que UCF101, HMDB51 et Kinetics comprennent des milliers de clips vidéo étiquetés pour la détection d'actions humaines. Du côté des capteurs, les ensembles de données recueillies à partir de smartphones et d'appareils portables fournissent des signaux de mouvement précieux qui rendent les modèles de reconnaissance plus robustes dans différents environnements.

Fig. 2. Aperçu d'un jeu de données de reconnaissance de l'activité humaine. (Source)

‍

Comment la vision par ordinateur soutient la reconnaissance de l'activité humaine

Parmi les différentes méthodes de detect actions humaines, la vision par ordinateur est rapidement devenue l'une des plus populaires et des plus étudiées. Son principal avantage est qu'elle permet d'extraire de riches détails directement des images et des vidéos. En examinant les pixels image par image et en analysant les modèles de mouvement, elle peut reconnaître des activités en temps réel sans que les personnes aient besoin de porter des dispositifs supplémentaires.

Les progrès récents en matière d'apprentissage profond, en particulier les réseaux neuronaux convolutifs (CNN), conçus pour analyser les images, ont rendu la vision par ordinateur plus rapide, plus précise et plus fiable.

Par exemple, des modèles de vision par ordinateur très répandus et à la pointe de la technologie, tels que Ultralytics YOLO11 s'appuient sur ces avancées. YOLO11 prend en charge des tâches telles que la détection d'objets, la segmentation d'instances, le suivi de personnes sur des images vidéo et l'estimation de poses humaines, ce qui en fait un excellent outil pour la reconnaissance de l'activité humaine.

Vue d'ensemble d'Ultralytics YOLO11

Ultralytics YOLO11 est un modèle d'intelligence artificielle conçu pour la vitesse et la précision. Il prend en charge les principales tâches de vision artificielle telles que la détection et le suivi d'objets, ainsi que l'estimation de la pose. Ces capacités sont particulièrement utiles pour la reconnaissance de l'activité humaine.

La détection d'objets identifie et localise les personnes dans une scène, le suivi suit leurs mouvements à travers les images vidéo pour reconnaître les séquences d'action, et l'estimation de la pose cartographie les principales articulations du corps humain pour distinguer des activités similaires ou detect changements soudains tels qu'une chute.

Par exemple, les informations tirées du modèle peuvent être utilisées pour faire la différence entre quelqu'un assis tranquillement, puis se levant, et enfin levant les bras pour applaudir. Ces actions simples de la vie quotidienne peuvent sembler similaires à première vue, mais ont des significations très différentes lorsqu'elles sont analysées dans une séquence.

Fig. 3. Utilisation de Ultralytics YOLO11 pour l'estimation de la pose.(Source)

Applications concrètes de la vision par ordinateur et de la reconnaissance d'activité humaine

Ensuite, examinons de plus près comment la reconnaissance de l'activité humaine, optimisée par la vision par ordinateur, est appliquée dans des cas d'utilisation réels qui ont un impact sur notre vie quotidienne.

Santé et bien-être

Dans le domaine des soins de santé, de petits changements dans les mouvements peuvent fournir des informations utiles sur l'état d'une personne. Par exemple, un trébuchement d'un patient âgé ou l'angle d'un membre pendant la rééducation peuvent révéler des risques ou des progrès. Ces signes sont souvent faciles à manquer par les moyens traditionnels, comme les examens de contrôle.

YOLO11 peut aider en utilisant l'estimation de la pose et l'analyse d'image pour surveiller les patients en temps réel. Il peut être utilisé pour detect chutes, track exercices de récupération et observer les activités quotidiennes telles que la marche ou les étirements. Parce qu'il fonctionne par analyse visuelle sans nécessiter de capteurs ou d'appareils portables, il offre un moyen simple de recueillir des informations précises qui facilitent les soins aux patients.

Fig. 4. Suivi des mouvements du corps à l'aide du support de YOLO11pour l'estimation de la pose.(Source)

Sûreté et surveillance

Les systèmes de sécurité reposent sur la détection rapide d'activités humaines inhabituelles, telles qu'une personne qui flâne, court dans une zone interdite ou fait preuve d'une agressivité soudaine. Ces signes passent souvent inaperçus dans les environnements très fréquentés où les agents de sécurité ne peuvent pas tout surveiller manuellement. C'est là que la vision par ordinateur et YOLO11 entrent en jeu.

YOLO11 facilite le contrôle de la sécurité grâce à la vidéosurveillance en temps réel qui permet de detect mouvements suspects et d'envoyer des alertes instantanées. Il contribue à la sécurité des foules dans les espaces publics et renforce la détection des intrusions dans les zones privées.

Grâce à cette approche, les agents de sécurité peuvent travailler aux côtés des systèmes de vision par ordinateur, créant ainsi une interaction et un partenariat homme-machine qui permettent des réponses plus rapides et plus opportunes aux activités suspectes.

Avantages et inconvénients de l'utilisation de la vision par ordinateur pour la reconnaissance d'activité humaine (HAR)

Voici quelques-uns des avantages de l'utilisation de la vision par ordinateur pour la reconnaissance de l'activité humaine :

Évolutivité : Une fois configuré, le même système de reconnaissance peut surveiller automatiquement plusieurs personnes à la fois, ce qui le rend utile pour l'automatisation dans les établissements de santé, les usines et les espaces publics.
Traitement en temps réel : Les solutions de Vision IA peuvent être utilisées pour analyser les flux vidéo en temps réel, permettant des réponses plus rapides.
Suivi non invasif : Contrairement aux appareils portables ou aux capteurs, il n’oblige pas les gens à transporter des appareils, ce qui permet une analyse du comportement naturelle et sans effort.

Bien qu'il existe de nombreux avantages à utiliser la vision par ordinateur pour la reconnaissance d'activité humaine (RAH), il y a aussi des limites à prendre en considération. Voici quelques facteurs à garder à l'esprit :

Préoccupations relatives à la confidentialité : La surveillance vidéo peut soulever des problèmes de protection des données et de consentement, en particulier dans les environnements sensibles comme les foyers ou les lieux de travail.
Biais potentiel : Si les ensembles de données d'entraînement manquent de diversité, les algorithmes peuvent mal interpréter les actions de certains groupes de personnes, ce qui peut entraîner des résultats injustes ou inexacts.
Sensibilité environnementale : La précision peut diminuer en raison d'un mauvais éclairage, d'un arrière-plan encombré ou de personnes partiellement cachées, ce qui signifie que les systèmes doivent être soigneusement conçus.

Principaux points à retenir

L'intelligence artificielle et la vision par ordinateur permettent aux machines de reconnaître les actions humaines avec plus de précision et en temps réel. En analysant les trames vidéo et les modèles de mouvement, ces systèmes peuvent identifier à la fois les gestes quotidiens et les changements soudains. À mesure que la technologie continue de s'améliorer, la reconnaissance de l'activité humaine dépasse les laboratoires de recherche et devient un outil pratique pour les soins de santé, la sécurité et les applications quotidiennes.

Pour en savoir plus sur l'IA, visitez notre dépôt GitHub et rejoignez notre communauté. Consultez nos pages de solutions pour en savoir plus sur l'IA dans la robotique et la vision par ordinateur dans la fabrication. Découvrez nos options de licence pour commencer avec Vision AI.

‍

L'IA peut-elle detect actions humaines ? Exploration de la reconnaissance des activités

Qu'est-ce que la reconnaissance d'actions humaines ?

Différentes méthodes de détection des actions humaines

Le rôle des jeux de données dans la reconnaissance de l'activité humaine