Glossaire

Compréhension de la vidéo

Découvrez Video Understanding, l'IA avancée qui interprète les actions et les événements dans les vidéos. Découvrez comment elle fonctionne et alimente des applications de conduite autonome et de sécurité intelligente.

La compréhension vidéo est un domaine avancé de l'intelligence artificielle (IA) et de la vision par ordinateur (VA) qui permet aux machines d'interpréter et d'analyser automatiquement le contenu des vidéos. Contrairement au traitement d'images statiques, la compréhension vidéo implique l'analyse de séquences d'images pour reconnaître non seulement les objets, mais aussi leurs actions, leurs interactions et le contexte temporel des événements. L'objectif est de parvenir à une compréhension holistique des données vidéo, à l'instar de la manière dont les humains perçoivent et interprètent les scènes dynamiques. Cette capacité est fondamentale pour un large éventail d'applications, des véhicules autonomes à la surveillance automatisée et à la modération de contenu.

Comment fonctionne la compréhension vidéo

Les systèmes de compréhension vidéo intègrent généralement plusieurs techniques d'intelligence artificielle pour traiter et interpréter les informations visuelles et temporelles. Le processus commence par des tâches fondamentales de vision par ordinateur effectuées sur des images vidéo individuelles. Ces tâches comprennent souvent

  • Détection d'objets: Identification et localisation des objets dans chaque image. Des modèles comme Ultralytics YOLO sont très efficaces pour cette première étape.
  • Suivi d'objets: Suivre les objets identifiés sur une séquence d'images pour comprendre leur mouvement et leur persistance.
  • Estimation de la pose: Reconnaître la posture et les points clés du corps humain, ce qui est essentiel pour analyser les actions humaines.
  • Segmentation d'images: Classification de chaque pixel d'une image pour comprendre la forme et les limites précises des objets.

Une fois ces caractéristiques spatiales extraites, le système les analyse dans le temps à l'aide de modèles conçus pour les données séquentielles, tels que les réseaux neuronaux récurrents (RNN) ou, plus couramment dans les architectures modernes, les réseaux Transformer. Ces modèles identifient des modèles dans la façon dont les objets et les scènes changent, ce qui permet d'effectuer des tâches de plus haut niveau telles que la reconnaissance d'actions, la détection d'événements et le résumé de vidéos. Certaines architectures avancées, comme les réseaux neuronaux convolutifs 3D, sont conçues pour apprendre simultanément les caractéristiques spatiales et temporelles. L'ensemble du processus est géré au sein d'un cadre cohérent d'opérations d'apprentissage automatique (MLOps) afin de garantir l'efficacité de la formation, du déploiement et de la surveillance.

Compréhension de la vidéo et concepts connexes

Il est important de distinguer la compréhension vidéo des autres tâches liées à la vision par ordinateur.

  • Compréhension vidéo et détection/suivi d'objets : La détection d'objets permet d'identifier ce qui se trouve dans une seule image, et le suivi d'objets permet de suivre ces objets sur plusieurs images. La compréhension vidéo utilise les résultats de ces tâches pour interpréter le pourquoi, c'est-à-dire lesactions, les événements et les interactions qui se produisent au fil du temps. Par exemple, le suivi d'une personne est un suivi d'objet ; l'identification du fait que la personne ouvre une porte est une compréhension de la vidéo.
  • Compréhension vidéo et reconnaissance d'images : La reconnaissance d'images se concentre sur la classification d'objets ou de scènes dans une seule image statique. La compréhension vidéo étend ce concept à la dimension temporelle, en analysant une séquence d'images pour comprendre des événements dynamiques. Il s'agit de comprendre non seulement le "quoi", mais aussi le "comment" et le "quand".
  • Compréhension de la vidéo par opposition à la conversion de texte en vidéo : La conversion de texte en vidéo est une tâche d'IA générative qui crée du contenu vidéo à partir de descriptions textuelles. À l'inverse, la compréhension vidéo est une tâche analytique qui extrait le sens et génère des descriptions ou des données structurées à partir d'un contenu vidéo existant.

Applications dans le monde réel

La compréhension de la vidéo est à l'origine d'un nombre croissant de solutions innovantes dans divers secteurs d'activité.

  1. Surveillance et sécurité intelligentes : Dans les applications de sécurité, les systèmes de compréhension vidéo peuvent détecter automatiquement les activités inhabituelles. Par exemple, un système peut contrôler les flux de surveillance dans un hôpital pour identifier la chute d'un patient ou analyser le trafic dans un magasin de détail pour détecter les vols. Ces systèmes vont au-delà de la simple détection de mouvement en comprenant le contexte des actions, ce qui permet de réduire considérablement les fausses alarmes et de réagir plus rapidement. Pour en savoir plus, lisez l'article sur l'amélioration de la surveillance intelligente avec Ultralytics YOLO11.
  2. Conduite autonome : Pour les voitures autonomes, la compréhension de la route est essentielle. Les modèles de compréhension vidéo analysent les flux des caméras pour prédire les intentions des piétons, interpréter le comportement des autres véhicules et reconnaître les feux de signalisation dans des scénarios complexes. Ce niveau de compréhension approfondi est essentiel pour une navigation sûre et fiable. Ce domaine s'appuie souvent sur des recherches approfondies en matière de reconnaissance des actions pour les systèmes autonomes.

D'autres applications incluent la modération de contenu sur les plateformes de médias sociaux en signalant les vidéos inappropriées, l'analyse sportive en résumant les faits marquants des matchs, et la création d'expériences interactives dans le domaine du divertissement. Des plateformes comme Ultralytics HUB fournissent les outils nécessaires pour former des modèles personnalisés pour ces tâches spécialisées, tandis que les intégrations avec des outils comme TensorRT les optimisent pour l'inférence en temps réel.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers