Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Reconnaissance des actions

Explore Action Recognition (Reconnaissance de l'activité humaine) : comment la vidéo, l'estimation de la pose et l'apprentissage profond detect actions humaines pour les soins de santé, la sécurité et les sports.

La reconnaissance des actions, souvent appelée reconnaissance de l'activité humaine (HAR), est un sous-ensemble spécialisé de la vision par ordinateur (VA) qui se concentre sur l'identification et l'analyse de l'activité humaine. de la vision artificielle (CV), qui se concentre sur l'identification et la l'identification et la classification de mouvements ou de comportements spécifiques dans les données vidéo. Contrairement à la reconnaissance d'images reconnaissance d'images standard, qui analyse des images statiques pour detect objets, la reconnaissance d'actions intègre la dimension temporelle pour comprendre les événements dynamiques. En traitant séquences d'images, d'images, les systèmes d'intelligence artificielle (IA) peuvent distinguer des actions telles que marcher, courir, faire un signe de la main ou tomber. Cette capacité est essentielle pour créer des systèmes capables d'interpréter le comportement humain dans des situations réelles. Cette capacité est essentielle pour créer des systèmes capables d'interpréter le comportement humain dans des environnements réels, en comblant le fossé entre la vision des pixels et la compréhension de l'intention. et la compréhension de l'intention.

Reconnaissance des principaux mécanismes d'action

Pour identifier avec précision les actions, les modèles de Deep Learning (DL) doivent extraire deux types de de caractéristiques : spatiales et temporelles. Les caractéristiques spatiales décrivent l'aspect visuel d'une scène, comme la présence d'une personne ou d'un objet. d'une personne ou d'un objet, généralement extraites réseaux neuronaux convolutifs (CNN). Les caractéristiques temporelles décrivent la manière dont ces éléments spatiaux évoluent dans le temps.

Les approches modernes utilisent souvent un pipeline qui comprend :

  • Détection d'objets: Le système localise efficacement les individus dans le cadre. Les modèles de pointe tels que YOLO11 sont fréquemment utilisés ici en raison de leur rapidité et de leur leur précision.
  • Estimation de la pose: Cette technique permet de cartographier la squelette d'un corps humain, en suivant des points comme les coudes, les genoux et les épaules. La relation La relation géométrique entre ces points au cours d'une séquence d'images fournit un signal robuste pour classer les actions. actions.
  • Analyse temporelle : Les séquences de données sont traitées à l'aide d'architectures conçues pour les séries temporelles temporelles, telles que les réseaux neuronaux récurrents (RNN) ou mémoire à long terme (LSTM) (Long Short-Term Memory). Plus récemment, les transformateurs vidéo ont ont gagné en popularité en raison de leur capacité à modéliser les dépendances à longue portée dans les flux vidéo.

L'exemple Python suivant montre comment utiliser la fonction ultralytics pour extraire les points clés de la pose d'une vidéo, qui sert de couche de données de base pour de nombreux systèmes de reconnaissance d'actions.

from ultralytics import YOLO

# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")

# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)

for result in results:
    # Keypoints can be analyzed over time to determine actions
    keypoints = result.keypoints.xyn  # Normalized x, y coordinates
    print(keypoints)

Pertinence et applications concrètes

La possibilité d'automatiser l'interprétation des mouvements humains a conduit à une adoption significative dans divers secteurs. Le marché mondial de la marché mondial de la reconnaissance de l'activité humaine continue de se développer à mesure que les industries cherchent à numériser les flux de travail physiques.

Soins de santé et sécurité des patients

Dans le domaine de l'IA dans les soins de santé, la reconnaissance des actions est essentielle pour la surveillance automatisée des patients. est essentielle pour le suivi automatisé des patients. Les systèmes peuvent être entraînés à detect chutes dans les hôpitaux ou les centres de vie assistée, ce qui déclenche des alertes immédiates pour le personnel. dans les hôpitaux ou les centres d'aide à la vie autonome, déclenchant ainsi des alertes immédiates auprès du personnel. En outre, la vision par ordinateur facilite la la rééducation physique à distance en analysant en temps En outre, la vision par ordinateur facilite la rééducation physique à distance en analysant la forme d'exercice d'un patient en temps réel, en veillant à ce qu'il effectue les mouvements correctement pour faciliter la récupération et prévenir les blessures.

Analyse du sport

Les entraîneurs et les diffuseurs utilisent l 'IA dans le sport pour pour analyser les performances d'un athlète. Les algorithmes de reconnaissance des actions peuvent automatiquement marquer des événements dans les séquences de jeu, comme un tir au basket-ball, un service au tennis ou une passe au football, ce qui permet une analyse statistique détaillée. comme un tir de basket, un service de tennis ou une passe de football, ce qui permet une analyse statistique détaillée. Ces données permettent d'affiner la technique et d'élaborer des stratégies basées sur sur les schémas de mouvement des joueurs.

Surveillance intelligente

Les systèmes de sécurité ont évolué au-delà de la simple détection de mouvement. Les systèmes de sécurité ont évolué au-delà de la simple détection de mouvement. surveillance de la sécurité utilise la reconnaissance des actions pour identifier les comportements suspects, tels que les bagarres, la flânerie ou le vol à l'étalage, tout en ignorant les mouvements bénins. tout en ignorant les mouvements bénins. Cela permet de réduire les fausses alarmes et d'améliorer l'efficacité du personnel de sécurité.

Distinguer les concepts apparentés

Il est important de différencier la reconnaissance d'action des termes similaires dans le domaine de la vision par ordinateur afin de sélectionner l'outil adéquat. l'outil adéquat.

  • Reconnaissance des actions vs. Compréhension vidéo: Alors que la reconnaissance d'actions se concentre sur l'identification d'activités physiques spécifiques (par exemple, "ouvrir une porte"), la compréhension vidéo est un domaine plus large qui vise à comprendre l'ensemble du contexte narratif et causal, la compréhension vidéo est un domaine plus large qui vise à comprendre l'ensemble du contexte, de la narration et des relations de cause à effet dans une vidéo (par exemple, "la personne ouvre la porte pour laisser passer la porte"). la personne ouvre la porte pour laisser sortir le chien").
  • Reconnaissance d'actions vs. Suivi d'objet: Le suivi d'objet vise à maintenir l'identité d'un objet ou d'une personne d'une image à l'autre. La reconnaissance d'action analyse le comportement du sujet suivi. Souvent, le suivi est une étape préalable à la reconnaissance d'actions dans des scènes à plusieurs personnes. d'actions dans des scènes à plusieurs personnes.
  • Reconnaissance des actions vs. Estimation de la pose: L'estimation de la pose fournit des données brutes sur les coordonnées des articulations du corps. La reconnaissance d'action utilise ces données (ou les caractéristiques visuelles) pour produire une étiquette sémantique, telle que "vélo" ou "saut". visuels) pour produire une étiquette sémantique, telle que "pédaler" ou "sauter".

Défis et orientations futures

Le déploiement de ces systèmes présente des difficultés, notamment la nécessité de disposer de grandes quantités de données de formation étiquetées et le coût de calcul. de données d'apprentissage étiquetées et le coût de traitement des vidéos. Des ensembles de données de référence tels que Kinetics-400 et UCF101 sont standard pour l'entraînement et l'évaluation des modèles.

Au fur et à mesure que le matériel s'améliore, on assiste à une évolution vers l'Edge AI, permettant aux modèles de fonctionner directement sur des caméras ou des appareils mobiles. Cela permet l'inférence en temps réel avec une latence plus faible et une meilleure confidentialité, car les données vidéo n'ont pas besoin d'être envoyées dans le nuage. Les développements futurs, y compris le prochain projet YOLO26, visent à optimiser la vitesse et la précision des moteurs sous-jacents de les moteurs sous-jacents de détection et d'estimation de la pose qui alimentent ces tâches de reconnaissance complexes.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant