Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Compréhension vidéo

Découvrez comment Video Understanding analyse les dynamiques temporelles pour interpréter les actions. Apprenez à mettre en œuvre le suivi en temps réel avec Ultralytics pour une IA avancée.

La compréhension vidéo est une branche sophistiquée de la vision par ordinateur (CV) qui vise à permettre aux machines de percevoir, d'analyser et d'interpréter des données visuelles au fil du temps. Contrairement à la reconnaissance d'images standard, qui traite des instantanés statiques de manière isolée, la compréhension vidéo consiste à analyser des séquences d'images afin de saisir la dynamique temporelle, le contexte et les relations causales. En traitant la « quatrième dimension » du temps, les systèmes d'IA peuvent aller au-delà de la simple identification d'objets pour comprendre les actions, les événements et le récit qui se déroulent dans une scène. Cette capacité est essentielle pour créer des systèmes intelligents capables d'interagir de manière sûre et efficace dans des environnements dynamiques du monde réel.

Composantes essentielles de l'analyse vidéo

Pour interpréter correctement le contenu vidéo, les modèles doivent synthétiser deux types d'informations principaux : les caractéristiques spatiales (ce qui se trouve dans le cadre) et les caractéristiques temporelles (comment les choses changent). Cela nécessite une architecture complexe qui combine souvent plusieurs stratégies de réseaux neuronaux.

  • Réseaux neuronaux convolutifs (CNN): ces réseaux servent généralement de base spatiale, en extrayant des caractéristiques visuelles telles que les formes, les textures et les objets à partir d'images individuelles.
  • Réseaux neuronaux récurrents (RNN): des architectures telles que les unités à mémoire à court et long terme (LSTM) sont utilisées pour traiter la séquence de caractéristiques extraites par le CNN, ce qui permet au modèle de « se souvenir » des images passées et de prédire les états futurs.
  • Flux optique: De nombreux systèmes utilisent des algorithmes de flux optique pour calculer explicitement les vecteurs de mouvement des pixels entre les images, fournissant ainsi des données essentielles sur la vitesse et la direction, indépendamment de l'apparence de l'objet.
  • Vision Transformers (ViTs): Les approches modernes s'appuient de plus en plus sur des mécanismes d'attention pour pondérer l'importance des différentes images ou régions, ce qui permet au modèle de se concentrer sur les événements clés d'un long flux vidéo .

Applications concrètes

La capacité à comprendre le contexte temporel a ouvert la voie à une automatisation avancée dans divers secteurs.

  • Véhicules autonomes: les voitures autonomes utilisent la compréhension vidéo pour prédire les trajectoires des piétons et des autres véhicules. En analysant les schémas de mouvement, le système peut anticiper les collisions potentielles et exécuter des manœuvres complexes.
  • Reconnaissance d'actions: dans le domaine de l'analyse sportive et de la surveillance médicale, les systèmes identifient des activités humaines spécifiques, telles qu'un joueur marquant un but ou un patient tombant, afin de fournir automatiquement des informations ou des alertes.
  • Commerce intelligent: les magasins utilisent ces systèmes pour la détection des anomalies afin d'identifier les vols ou d' analyser les habitudes de fréquentation des clients pour optimiser l'agencement des magasins.
  • Modération de contenu: les grandes plateformes médiatiques utilisent la compréhension vidéo pour signaler automatiquement les contenus inappropriés ou classer les téléchargements par thème, ce qui réduit considérablement le besoin de révision manuelle.

Distinguer les concepts apparentés

Bien que la compréhension vidéo englobe un large éventail de capacités, elle se distingue de plusieurs termes connexes dans le domaine de l'IA.

  • Compréhension vidéo vs suivi d'objets: le suivi vise à conserver l'identité unique d'une instance (comme une voiture spécifique) lorsqu'elle se déplace d'une image à l'autre. La compréhension vidéo interprète le comportement de cette voiture, par exemple en reconnaissant qu'elle est en train de « se garer » ou de « rouler à vive allure ».
  • Compréhension vidéo vs estimation de la pose: L'estimation de la pose détecte la configuration géométrique des articulations du corps dans une seule image ou séquence. La compréhension vidéo utilise ces données pour déduire la signification du mouvement, comme « faire signe de la main pour dire bonjour ».
  • Compréhension vidéo vs IA multimodale: alors que la compréhension vidéo se concentre sur les séquences visuelles, l'IA multimodale combine la vidéo avec l'audio, le texte ou les données des capteurs pour une analyse plus holistique.

Mise en œuvre de l'analyse vidéo avec YOLO26

Une étape fondamentale dans la compréhension des vidéos consiste à détecter et à suivre de manière fiable les objets afin d'établir une continuité temporelle . Le modèle Ultralytics offre des performances de pointe pour le suivi en temps réel, qui sert de précurseur à une analyse comportementale de plus haut niveau.

L'exemple suivant montre comment effectuer un suivi d'objet sur une source vidéo à l'aide de Python :

from ultralytics import YOLO

# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Track objects in a video file with persistence to maintain IDs
# 'show=True' visualizes the tracking in real-time
results = model.track(source="path/to/video.mp4", persist=True, show=True)

Défis et tendances futures

Malgré des progrès significatifs, la compréhension vidéo reste coûteuse en termes de calcul en raison du volume considérable de données dans les flux vidéo haute définition. Le calcul des FLOPS pour les convolutions 3D ou les transformateurs temporels peut être prohibitif pour les dispositifs d'IA de pointe. Pour remédier à cela, les chercheurs développent des architectures efficaces telles que le module de décalage temporel (TSM) et exploitent des outils d'optimisation tels que NVIDIA TensorRT pour permettre une inférence en temps réel.

Les développements futurs s'orientent vers un apprentissage multimodal sophistiqué , où les modèles intègrent des indices audio (par exemple, une sirène) et le contexte textuel pour parvenir à une compréhension plus approfondie. Des plateformes telles que la Ultralytics évoluent également afin de rationaliser l'annotation et la gestion d'ensembles de données vidéo complexes, facilitant ainsi la formation de modèles personnalisés pour des tâches temporelles spécifiques.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant