Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Video Understanding

Explore comment la compréhension vidéo analyse les dynamiques temporelles pour interpréter les actions. Apprends à implémenter le suivi en temps réel avec Ultralytics YOLO26 pour une IA avancée.

La compréhension vidéo est une branche sophistiquée de la computer vision (CV) qui vise à permettre aux machines de percevoir, d'analyser et d'interpréter des données visuelles dans le temps. Contrairement à la image recognition classique, qui traite des instantanés statiques de manière isolée, la compréhension vidéo implique l'analyse de séquences d'images pour saisir les dynamiques temporelles, le contexte et les relations causales. En traitant la « quatrième dimension » du temps, les systèmes d'IA peuvent dépasser la simple identification d'objets pour comprendre les actions, les événements et le récit qui se déroule au sein d'une scène. Cette capacité est essentielle pour créer des systèmes intelligents capables d'interagir en toute sécurité et efficacement dans des environnements réels dynamiques.

Link to this sectionComposants fondamentaux de l'analyse vidéo#

Pour interpréter correctement le contenu vidéo, les modèles doivent synthétiser deux types d'informations principaux : les caractéristiques spatiales (ce qui se trouve dans l'image) et les caractéristiques temporelles (comment les choses changent). Cela nécessite une architecture complexe qui combine souvent plusieurs stratégies de réseaux neuronaux.

  • Convolutional Neural Networks (CNNs) : Ces réseaux servent généralement d'épine dorsale spatiale, extrayant des caractéristiques visuelles telles que les formes, les textures et les objets à partir d'images individuelles.
  • Recurrent Neural Networks (RNNs) : Des architectures comme les unités Long Short-Term Memory (LSTM) sont utilisées pour traiter la séquence de caractéristiques extraites par le CNN, permettant au modèle de « se souvenir » des images passées et de prédire les états futurs.
  • Optical Flow : De nombreux systèmes utilisent des algorithmes de flux optique pour calculer explicitement les vecteurs de mouvement des pixels entre les images, fournissant des données critiques sur la vitesse et la direction, indépendamment de l'apparence de l'objet.
  • Vision Transformers (ViTs) : Les approches modernes reposent de plus en plus sur des attention mechanisms pour peser l'importance de différentes images ou régions, permettant au modèle de se concentrer sur des événements clés dans un long flux vidéo.

Link to this sectionApplications concrètes#

La capacité à comprendre le contexte temporel a ouvert la voie à une automatisation avancée dans diverses industries.

  • Autonomous Vehicles : Les voitures autonomes utilisent la compréhension vidéo pour prédire les trajectoires des piétons et des autres véhicules. En analysant les modèles de mouvement, le système peut anticiper des collisions potentielles et exécuter des manœuvres complexes.
  • Action Recognition : Dans l'analyse sportive et la healthcare monitoring, les systèmes identifient des activités humaines spécifiques — comme un joueur marquant un but ou un patient faisant une chute — pour fournir des informations ou des alertes automatisées.
  • Smart Retail : Les magasins utilisent ces systèmes pour la anomaly detection afin d'identifier les vols ou d'analyser les modèles de circulation des clients pour une meilleure optimisation de l'aménagement.
  • Modération de contenu : Les grandes plateformes médiatiques utilisent la compréhension vidéo pour signaler automatiquement le contenu inapproprié ou catégoriser les téléchargements par sujet, réduisant considérablement le besoin d'examen manuel.

Link to this sectionDistinguer les concepts apparentés#

Bien que la compréhension vidéo englobe un large éventail de capacités, elle se distingue de plusieurs termes connexes dans le paysage de l'IA.

  • Video Understanding vs. Object Tracking : Le tracking se concentre sur le maintien de l'identité unique d'une instance (comme une voiture spécifique) à mesure qu'elle se déplace à travers les images. La compréhension vidéo interprète le comportement de cette voiture, par exemple en reconnaissant qu'elle est en train de « se garer » ou d'« accélérer ».
  • Video Understanding vs. Pose Estimation : La pose estimation détecte la configuration géométrique des articulations du corps dans une seule image ou une séquence. La compréhension vidéo utilise ces données pour déduire le sens du mouvement, comme « faire un signe de la main ».
  • Video Understanding vs. Multimodal AI : Alors que la compréhension vidéo se concentre sur les séquences visuelles, l'IA multimodale combine la vidéo avec l'audio, le texte ou des données de capteurs pour une analyse plus holistique.

Link to this sectionMise en œuvre de l'analyse vidéo avec YOLO26#

Une étape fondamentale de la compréhension vidéo consiste à détecter et suivre les objets de manière robuste pour établir une continuité temporelle. Le modèle Ultralytics YOLO26 offre des performances de pointe pour le tracking en temps réel, ce qui sert de précurseur à une analyse comportementale de plus haut niveau.

L'exemple suivant montre comment effectuer le suivi d'objets sur une source vidéo en utilisant l'API Python :

from ultralytics import YOLO

# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Track objects in a video file with persistence to maintain IDs
# 'show=True' visualizes the tracking in real-time
results = model.track(source="path/to/video.mp4", persist=True, show=True)

Link to this sectionDéfis et tendances futures#

Malgré des progrès significatifs, la compréhension vidéo reste coûteuse en termes de calcul en raison du volume considérable de données dans les flux vidéo haute définition. Le calcul des FLOPS pour les convolutions 3D ou les transformers temporels peut être prohibitif pour les appareils d'edge AI. Pour y remédier, les chercheurs développent des architectures efficaces comme le Temporal Shift Module (TSM) et exploitent des outils d'optimisation tels que NVIDIA TensorRT pour permettre l'real-time inference.

Les développements futurs s'orientent vers un multimodal learning sophistiqué, où les modèles intègrent des indices audio (par exemple, une sirène) et un contexte textuel pour parvenir à une compréhension plus approfondie. Des plateformes comme l'Ultralytics Platform évoluent également pour rationaliser l'annotation et la gestion de jeux de données vidéo complexes, facilitant ainsi l'entraînement de modèles personnalisés pour des tâches temporelles spécifiques.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique