Explore Action Recognition (Reconnaissance de l'activité humaine) : comment la vidéo, l'estimation de la pose et l'apprentissage profond detect actions humaines pour les soins de santé, la sécurité et les sports.
La reconnaissance des actions, souvent appelée reconnaissance de l'activité humaine (HAR), est un sous-ensemble spécialisé de la vision par ordinateur (VA) qui se concentre sur l'identification et l'analyse de l'activité humaine. de la vision artificielle (CV), qui se concentre sur l'identification et la l'identification et la classification de mouvements ou de comportements spécifiques dans les données vidéo. Contrairement à la reconnaissance d'images reconnaissance d'images standard, qui analyse des images statiques pour detect objets, la reconnaissance d'actions intègre la dimension temporelle pour comprendre les événements dynamiques. En traitant séquences d'images, d'images, les systèmes d'intelligence artificielle (IA) peuvent distinguer des actions telles que marcher, courir, faire un signe de la main ou tomber. Cette capacité est essentielle pour créer des systèmes capables d'interpréter le comportement humain dans des situations réelles. Cette capacité est essentielle pour créer des systèmes capables d'interpréter le comportement humain dans des environnements réels, en comblant le fossé entre la vision des pixels et la compréhension de l'intention. et la compréhension de l'intention.
Pour identifier avec précision les actions, les modèles de Deep Learning (DL) doivent extraire deux types de de caractéristiques : spatiales et temporelles. Les caractéristiques spatiales décrivent l'aspect visuel d'une scène, comme la présence d'une personne ou d'un objet. d'une personne ou d'un objet, généralement extraites réseaux neuronaux convolutifs (CNN). Les caractéristiques temporelles décrivent la manière dont ces éléments spatiaux évoluent dans le temps.
Les approches modernes utilisent souvent un pipeline qui comprend :
L'exemple Python suivant montre comment utiliser la fonction ultralytics pour extraire les points clés de la pose
d'une vidéo, qui sert de couche de données de base pour de nombreux systèmes de reconnaissance d'actions.
from ultralytics import YOLO
# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")
# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)
for result in results:
# Keypoints can be analyzed over time to determine actions
keypoints = result.keypoints.xyn # Normalized x, y coordinates
print(keypoints)
La possibilité d'automatiser l'interprétation des mouvements humains a conduit à une adoption significative dans divers secteurs. Le marché mondial de la marché mondial de la reconnaissance de l'activité humaine continue de se développer à mesure que les industries cherchent à numériser les flux de travail physiques.
Dans le domaine de l'IA dans les soins de santé, la reconnaissance des actions est essentielle pour la surveillance automatisée des patients. est essentielle pour le suivi automatisé des patients. Les systèmes peuvent être entraînés à detect chutes dans les hôpitaux ou les centres de vie assistée, ce qui déclenche des alertes immédiates pour le personnel. dans les hôpitaux ou les centres d'aide à la vie autonome, déclenchant ainsi des alertes immédiates auprès du personnel. En outre, la vision par ordinateur facilite la la rééducation physique à distance en analysant en temps En outre, la vision par ordinateur facilite la rééducation physique à distance en analysant la forme d'exercice d'un patient en temps réel, en veillant à ce qu'il effectue les mouvements correctement pour faciliter la récupération et prévenir les blessures.
Les entraîneurs et les diffuseurs utilisent l 'IA dans le sport pour pour analyser les performances d'un athlète. Les algorithmes de reconnaissance des actions peuvent automatiquement marquer des événements dans les séquences de jeu, comme un tir au basket-ball, un service au tennis ou une passe au football, ce qui permet une analyse statistique détaillée. comme un tir de basket, un service de tennis ou une passe de football, ce qui permet une analyse statistique détaillée. Ces données permettent d'affiner la technique et d'élaborer des stratégies basées sur sur les schémas de mouvement des joueurs.
Les systèmes de sécurité ont évolué au-delà de la simple détection de mouvement. Les systèmes de sécurité ont évolué au-delà de la simple détection de mouvement. surveillance de la sécurité utilise la reconnaissance des actions pour identifier les comportements suspects, tels que les bagarres, la flânerie ou le vol à l'étalage, tout en ignorant les mouvements bénins. tout en ignorant les mouvements bénins. Cela permet de réduire les fausses alarmes et d'améliorer l'efficacité du personnel de sécurité.
Il est important de différencier la reconnaissance d'action des termes similaires dans le domaine de la vision par ordinateur afin de sélectionner l'outil adéquat. l'outil adéquat.
Le déploiement de ces systèmes présente des difficultés, notamment la nécessité de disposer de grandes quantités de données de formation étiquetées et le coût de calcul. de données d'apprentissage étiquetées et le coût de traitement des vidéos. Des ensembles de données de référence tels que Kinetics-400 et UCF101 sont standard pour l'entraînement et l'évaluation des modèles.
Au fur et à mesure que le matériel s'améliore, on assiste à une évolution vers l'Edge AI, permettant aux modèles de fonctionner directement sur des caméras ou des appareils mobiles. Cela permet l'inférence en temps réel avec une latence plus faible et une meilleure confidentialité, car les données vidéo n'ont pas besoin d'être envoyées dans le nuage. Les développements futurs, y compris le prochain projet YOLO26, visent à optimiser la vitesse et la précision des moteurs sous-jacents de les moteurs sous-jacents de détection et d'estimation de la pose qui alimentent ces tâches de reconnaissance complexes.