Explore Action Recognition (Reconnaissance de l'activité humaine) : comment la vidéo, l'estimation de la pose et l'apprentissage profond detect actions humaines pour les soins de santé, la sécurité et les sports.
La reconnaissance d'actions, souvent appelée reconnaissance d'activités humaines (HAR), est une branche spécialisée de la vision par ordinateur (CV) qui se concentre sur l'identification et la classification de mouvements ou de comportements spécifiques dans des données vidéo. Alors que la reconnaissance d'images standard analyse des images statiques pour detect , la reconnaissance d'actions intègre une quatrième dimension, le temps, pour interpréter des événements dynamiques. En traitant des séquences d'images, les systèmes avancés d' intelligence artificielle (IA) peuvent distinguer des comportements complexes tels que marcher, faire un signe de la main, tomber ou exécuter une technique sportive spécifique. Cette capacité est essentielle pour créer des systèmes intelligents capables de comprendre les intentions humaines et d'interagir en toute sécurité dans des environnements réels.
Pour identifier avec précision les actions, les modèles d'apprentissage profond (DL) doivent extraire et synthétiser deux types principaux de caractéristiques : spatiales et temporelles. Les caractéristiques spatiales capturent l'apparence visuelle de la scène, telle que la présence d'une personne ou d'un objet, généralement à l'aide de réseaux neuronaux convolutifs (CNN). Les caractéristiques temporelles décrivent la façon dont ces éléments changent au fil du temps, fournissant le contexte nécessaire pour différencier une action « s'asseoir » d'une action « se lever ».
Les approches modernes utilisent souvent un pipeline à plusieurs étapes pour obtenir une grande précision :
La possibilité d'automatiser l'interprétation des mouvements humains a favorisé son adoption à grande échelle dans divers secteurs. Le marchémondial de la reconnaissance des activités humaines continue de se développer, les entreprises cherchant à numériser leurs flux de travail physiques et à renforcer la sécurité.
Dans le domaine de l'IA appliquée aux soins de santé, la reconnaissance des actions est essentielle pour la surveillance automatisée des patients. Les systèmes peuvent être entraînés à detect dans les hôpitaux ou les établissements d'hébergement pour personnes âgées, déclenchant ainsi des alertes immédiates à l'intention du personnel soignant. De plus, la vision par ordinateur facilite la rééducation physique à distance en analysant en temps réel la forme physique des patients, s'assurant ainsi qu'ils effectuent correctement les mouvements afin de favoriser leur rétablissement et de prévenir les blessures.
Les entraîneurs et les commentateurs utilisent l' IA dans le sport pour décomposer les performances des athlètes. Les algorithmes de reconnaissance des actions peuvent automatiquement marquer les événements dans les séquences de match, tels qu'un tir au basket, un service au tennis ou une passe au football, ce qui permet une analyse statistique détaillée. Ces données aident à affiner la technique et à développer des stratégies basées sur les modèles de mouvement spécifiques des joueurs.
Il est important de différencier la reconnaissance d'action des termes similaires dans le domaine de la vision par ordinateur afin de sélectionner l'outil adéquat. l'outil adéquat.
Une étape fondamentale dans de nombreux pipelines de reconnaissance d'actions consiste à extraire les données squelettiques. Python suivant
montre comment utiliser la fonction ultralytics bibliothèque avec
YOLO26 pour extraire les points clés de pose, qui servent de
couche de données fondamentale pour la classification des actions en aval.
from ultralytics import YOLO
# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")
for result in results:
# Keypoints (x, y, visibility) used for downstream action analysis
if result.keypoints is not None:
print(f"Keypoints shape: {result.keypoints.data.shape}")
Le déploiement de ces systèmes présente des défis, notamment le besoin de grandes quantités de données d'entraînement étiquetées et le coût informatique du traitement vidéo. Les ensembles de données de référence comme Kinetics-400 sont la norme pour évaluer les performances des modèles.
À mesure que le matériel s'améliore, on observe une transition vers l'IA en périphérie, qui permet aux modèles de fonctionner directement sur des caméras ou des appareils mobiles. Cela permet une inférence en temps réel avec une latence réduite et une meilleure confidentialité, car les données vidéo n'ont pas besoin d'être envoyées vers le cloud. Les développements futurs visent à optimiser davantage la vitesse et la précision des moteurs de détection et d'estimation de la pose sous-jacents qui alimentent ces tâches de reconnaissance complexes.