Action Recognition
Explore comment la reconnaissance d'actions identifie les comportements dans la vidéo. Apprends à utiliser Ultralytics YOLO26 pour l'estimation de pose et à construire des systèmes IA intelligents pour les tâches HAR.
La reconnaissance d'actions, également appelée reconnaissance d'activité humaine (HAR), est un sous-domaine dynamique de la vision par ordinateur (CV) qui s'intéresse à l'identification et à la classification de comportements ou de mouvements spécifiques effectués par des sujets dans des données vidéo. Alors que la détection d'objets traditionnelle répond à la question "qu'y a-t-il dans l'image ?", la reconnaissance d'actions aborde la question plus complexe : "que se passe-t-il au fil du temps ?". En analysant des séquences d'images plutôt que des images statiques, les modèles d'apprentissage automatique (ML) peuvent distinguer des activités complexes telles que "marcher", "faire du vélo", "tomber" ou "serrer la main", ce qui en fait un élément crucial pour construire des systèmes intelligents capables de comprendre l'intention et le contexte humains.
Link to this sectionConcepts et techniques fondamentaux#
Reconnaître des actions nécessite qu'un modèle traite à la fois des informations spatiales (l'apparence des objets ou des personnes) et des informations temporelles (leur mouvement dans le temps). Pour y parvenir, les systèmes d'intelligence artificielle (IA) modernes utilisent souvent des architectures spécialisées qui vont au-delà des réseaux de neurones convolutifs (CNN) standards.
- Estimation de pose : Une technique puissante où le modèle suit des points clés spécifiques du corps humain, tels que les coudes, les genoux et les épaules. Les changements géométriques de ces points clés au fil du temps fournissent un signal fort pour classer les actions, indépendamment de l'encombrement de l'arrière-plan.
- Modélisation temporelle : Les algorithmes utilisent des structures comme les réseaux de neurones récurrents (RNN) ou les réseaux de mémoire à long terme (LSTM) pour mémoriser les images passées et prédire les actions futures. Plus récemment, les Video Transformers ont gagné en popularité pour leur capacité à gérer les dépendances à longue portée dans les flux vidéo.
- Réseaux à deux flux : Cette approche traite les caractéristiques spatiales (images RVB) et les caractéristiques temporelles (souvent en utilisant le flux optique) dans des flux parallèles, en fusionnant les données pour effectuer une classification finale.
Link to this sectionApplications concrètes#
La capacité à interpréter automatiquement le mouvement humain a un potentiel transformateur dans divers secteurs, améliorant la sécurité, l'efficacité et l'expérience utilisateur.
- IA dans la santé : La reconnaissance d'actions est vitale pour les systèmes de surveillance des patients. Par exemple, elle permet la détection automatique des chutes dans les maisons de retraite, alertant immédiatement le personnel si un patient s'effondre. Elle est également utilisée dans la rééducation physique à distance, où des coachs IA analysent la forme physique d'un patient pour s'assurer qu'il effectue les mouvements correctement et en toute sécurité.
- Surveillance intelligente et sécurité : Au-delà de la simple détection de mouvement, les systèmes de sécurité avancés utilisent la reconnaissance d'actions pour identifier les comportements suspects, tels que les bagarres, le vol à l'étalage ou les entrées non autorisées, tout en ignorant les activités bénignes. Cela réduit les fausses alertes et améliore la surveillance de sécurité en temps réel.
Link to this sectionImplémenter l'analyse d'actions avec Ultralytics#
Un flux de travail courant consiste à détecter d'abord les personnes et leur pose squelettique, puis à analyser le mouvement de ces articulations. Le modèle Ultralytics YOLO26 offre une vitesse et une précision de pointe pour l'étape initiale d'estimation de pose, qui constitue la base de nombreux pipelines de reconnaissance d'actions.
L'exemple suivant montre comment extraire des points clés squelettiques d'une image vidéo en utilisant Python :
from ultralytics import YOLO
# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
# Access the keypoints (x, y, visibility)
if result.keypoints is not None:
print(f"Detected keypoints shape: {result.keypoints.data.shape}")Link to this sectionDistinguer les termes associés#
Il est important de différencier la reconnaissance d'actions des tâches de vision par ordinateur similaires pour s'assurer que les méthodes correctes sont appliquées.
- Reconnaissance d'actions vs Suivi d'objets : Le suivi d'objets se concentre sur le maintien de l'identité d'un objet ou d'une personne spécifique lorsqu'il se déplace entre les images (par exemple, "la personne A est aux coordonnées X"). La reconnaissance d'actions interprète le comportement de ce sujet suivi (par exemple, "la personne A court").
- Reconnaissance d'actions vs Compréhension vidéo : Alors que la reconnaissance d'actions identifie des actes physiques spécifiques, la compréhension vidéo est un concept plus large qui implique de saisir l'intégralité du récit, du contexte et des relations causales au sein d'une scène vidéo.
Link to this sectionDéfis et tendances futures#
Le développement de modèles robustes de reconnaissance d'actions présente des défis, notamment en ce qui concerne le besoin de grands jeux de données vidéo annotés comme Kinetics-400 ou UCF101. L'étiquetage des données vidéo prend beaucoup plus de temps que l'étiquetage des images statiques. Pour résoudre ce problème, des outils comme la plateforme Ultralytics aident à rationaliser le flux de travail d'annotation et d'entraînement.
De plus, l'efficacité computationnelle est critique. Le traitement de vidéos haute résolution en temps réel nécessite des ressources matérielles importantes. L'industrie s'oriente de plus en plus vers l'IA en périphérie (Edge AI), en optimisant les modèles pour qu'ils s'exécutent directement sur les caméras et les appareils mobiles afin de réduire la latence et l'utilisation de la bande passante. Les avancées futures visent à améliorer la généralisation des modèles, permettant aux systèmes de reconnaître des actions même depuis des points de vue sur lesquels ils n'ont pas été explicitement entraînés.






