Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Reconnaissance des actions

Découvrez comment la reconnaissance d'actions identifie les comportements dans les vidéos. Apprenez à utiliser Ultralytics pour l'estimation de la posture et créez des systèmes d'IA intelligents pour les tâches HAR.

La reconnaissance d'actions, également connue sous le nom de reconnaissance d'activités humaines (HAR), est un sous-domaine dynamique de la vision par ordinateur (CV) qui consiste à identifier et à classer des comportements ou des mouvements spécifiques effectués par des sujets dans des données vidéo. Alors que la détection d'objets traditionnelle répond à la question « qu'y a-t-il dans l'image ? », la reconnaissance d'actions aborde la question plus complexe « que se passe-t-il au fil du temps ? ». En analysant des séquences d'images plutôt que des images statiques, les modèles d'apprentissage automatique (ML) peuvent distinguer des activités complexes telles que « marcher », « faire du vélo », « tomber » ou « serrer la main », ce qui en fait un élément essentiel pour la création de systèmes intelligents capables de comprendre les intentions et le contexte humains.

Concepts et techniques fondamentaux

La reconnaissance des actions nécessite un modèle capable de traiter à la fois les informations spatiales (à quoi ressemblent les objets ou les personnes) et les informations temporelles (comment ils se déplacent dans le temps). Pour y parvenir, les systèmes d'intelligence artificielle (IA) modernes utilisent souvent des architectures spécialisées qui vont au-delà des réseaux neuronaux convolutifs (CNN) standard.

  • Estimation de la pose: technique puissante dans laquelle le modèle suit des points clés spécifiques du corps humain, tels que les coudes, les genoux et les épaules. Les changements géométriques de ces points clés au fil du temps fournissent un signal fort pour classer les actions, indépendamment du désordre de l'arrière-plan.
  • Modélisation temporelle : les algorithmes utilisent des structures telles que les réseaux neuronaux récurrents (RNN) ou les réseaux à mémoire à court terme (LSTM) pour mémoriser les images passées et prédire les actions futures. Plus récemment, les transformateurs vidéo ont gagné en popularité grâce à leur capacité à gérer les dépendances à long terme dans les flux vidéo.
  • Réseaux à deux flux : cette approche traite les caractéristiques spatiales (images RVB) et temporelles (souvent à l'aide du flux optique) dans des flux parallèles, fusionnant les données pour établir une classification finale.

Applications concrètes

La capacité à interpréter automatiquement les mouvements humains a un potentiel de transformation dans divers secteurs, améliorant la sécurité, l'efficacité et l'expérience utilisateur.

  • L'IA dans le domaine de la santé: la reconnaissance des actions est essentielle pour les systèmes de surveillance des patients. Elle permet, par exemple, la détection automatique des chutes dans les maisons de retraite , alertant immédiatement le personnel si un patient s'effondre. Elle est également utilisée dans le cadre de la rééducation physique à distance, où des coachs IA analysent la forme physique des patients afin de s'assurer qu'ils effectuent les mouvements correctement et en toute sécurité.
  • Surveillance et sécurité intelligentes : au-delà de la simple détection de mouvement, les systèmes de sécurité avancés utilisent la reconnaissance des actions pour identifier les comportements suspects, tels que les bagarres, le vol à l'étalage ou les entrées non autorisées, tout en ignorant les activités bénignes. Cela réduit les fausses alarmes et améliore la surveillance de la sécurité en temps réel.

Mise en œuvre de l'analyse des actions avec Ultralytics

Un flux de travail courant consiste à détecter d'abord les personnes et leur posture squelettique, puis à analyser le mouvement de ces articulations. Le modèle Ultralytics offre une vitesse et une précision de pointe pour l'étape initiale d'estimation de la posture, qui est à la base de nombreux pipelines de reconnaissance d'actions .

L'exemple suivant montre comment extraire les points clés du squelette d'une image vidéo à l'aide de Python:

from ultralytics import YOLO

# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    # Access the keypoints (x, y, visibility)
    if result.keypoints is not None:
        print(f"Detected keypoints shape: {result.keypoints.data.shape}")

Distinguer les termes apparentés

Il est important de différencier la reconnaissance d'actions des tâches similaires de vision par ordinateur afin de garantir l'application des méthodes correctes .

  • Reconnaissance d'actions vs. Suivi d'objets: Le suivi d'objets consiste à maintenir l'identité d'un objet ou d'une personne spécifique lorsqu'ils se déplacent d'une image à l'autre (par exemple, « La personne A se trouve à la coordonnée X »). La reconnaissance d'actions interprète le comportement du sujet suivi (par exemple, « La personne A court »).
  • Reconnaissance des actions vs. Compréhension vidéo: Alors que la reconnaissance des actions identifie des actes physiques spécifiques, la compréhension vidéo est un concept plus large qui implique la compréhension de l'ensemble du récit, du contexte et des relations causales au sein d'une scène vidéo.

Défis et tendances futures

Le développement de modèles robustes de reconnaissance des actions présente des défis, notamment en ce qui concerne le besoin de grands ensembles de données vidéo annotés tels que Kinetics-400 ou UCF101. L'étiquetage des données vidéo est beaucoup plus long que l'étiquetage des images statiques. Pour y remédier, des outils tels que la Ultralytics permettent de rationaliser le processus d'annotation et de formation .

De plus, l'efficacité informatique est essentielle. Le traitement de vidéos haute résolution en temps réel nécessite d'importantes ressources matérielles. L'industrie s'oriente de plus en plus vers l' IA de pointe, optimisant les modèles pour qu'ils fonctionnent directement sur les caméras et les appareils mobiles afin de réduire la latence et l'utilisation de la bande passante. Les progrès futurs visent à améliorer la généralisation des modèles, permettant aux systèmes de reconnaître des actions même à partir de points de vue pour lesquels ils n'ont pas été explicitement formés.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant