Découvrez comment la reconnaissance d'actions identifie les comportements dans les vidéos. Apprenez à utiliser Ultralytics pour l'estimation de la posture et créez des systèmes d'IA intelligents pour les tâches HAR.
La reconnaissance d'actions, également connue sous le nom de reconnaissance d'activités humaines (HAR), est un sous-domaine dynamique de la vision par ordinateur (CV) qui consiste à identifier et à classer des comportements ou des mouvements spécifiques effectués par des sujets dans des données vidéo. Alors que la détection d'objets traditionnelle répond à la question « qu'y a-t-il dans l'image ? », la reconnaissance d'actions aborde la question plus complexe « que se passe-t-il au fil du temps ? ». En analysant des séquences d'images plutôt que des images statiques, les modèles d'apprentissage automatique (ML) peuvent distinguer des activités complexes telles que « marcher », « faire du vélo », « tomber » ou « serrer la main », ce qui en fait un élément essentiel pour la création de systèmes intelligents capables de comprendre les intentions et le contexte humains.
La reconnaissance des actions nécessite un modèle capable de traiter à la fois les informations spatiales (à quoi ressemblent les objets ou les personnes) et les informations temporelles (comment ils se déplacent dans le temps). Pour y parvenir, les systèmes d'intelligence artificielle (IA) modernes utilisent souvent des architectures spécialisées qui vont au-delà des réseaux neuronaux convolutifs (CNN) standard.
La capacité à interpréter automatiquement les mouvements humains a un potentiel de transformation dans divers secteurs, améliorant la sécurité, l'efficacité et l'expérience utilisateur.
Un flux de travail courant consiste à détecter d'abord les personnes et leur posture squelettique, puis à analyser le mouvement de ces articulations. Le modèle Ultralytics offre une vitesse et une précision de pointe pour l'étape initiale d'estimation de la posture, qui est à la base de nombreux pipelines de reconnaissance d'actions .
L'exemple suivant montre comment extraire les points clés du squelette d'une image vidéo à l'aide de Python:
from ultralytics import YOLO
# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
# Access the keypoints (x, y, visibility)
if result.keypoints is not None:
print(f"Detected keypoints shape: {result.keypoints.data.shape}")
Il est important de différencier la reconnaissance d'actions des tâches similaires de vision par ordinateur afin de garantir l'application des méthodes correctes .
Le développement de modèles robustes de reconnaissance des actions présente des défis, notamment en ce qui concerne le besoin de grands ensembles de données vidéo annotés tels que Kinetics-400 ou UCF101. L'étiquetage des données vidéo est beaucoup plus long que l'étiquetage des images statiques. Pour y remédier, des outils tels que la Ultralytics permettent de rationaliser le processus d'annotation et de formation .
De plus, l'efficacité informatique est essentielle. Le traitement de vidéos haute résolution en temps réel nécessite d'importantes ressources matérielles. L'industrie s'oriente de plus en plus vers l' IA de pointe, optimisant les modèles pour qu'ils fonctionnent directement sur les caméras et les appareils mobiles afin de réduire la latence et l'utilisation de la bande passante. Les progrès futurs visent à améliorer la généralisation des modèles, permettant aux systèmes de reconnaître des actions même à partir de points de vue pour lesquels ils n'ont pas été explicitement formés.