Explorez la compréhension vidéo, l'IA avancée qui interprète les actions et les événements dans la vidéo. Découvrez comment elle fonctionne et alimente les applications dans la conduite autonome et la sécurité intelligente.
La compréhension vidéo est un domaine qui évolue rapidement au sein de la vision par ordinateur (VA) et l'intelligence artificielle (IA) qui qui vise à permettre aux machines d'interpréter et d'analyser des données visuelles au fil du temps. Contrairement à la reconnaissance d'images reconnaissance d'images standard, qui analyse des statiques, la compréhension vidéo traite des séquences d'images pour comprendre la dynamique temporelle temporelle, le contexte et les relations de cause à effet au sein d'une scène. Cette capacité permet aux systèmes non seulement d'identifier les Cette capacité permet aux systèmes non seulement d'identifier les objets présents, mais aussi de déduire ce qui se passe, de prédire les actions futures et de comprendre "l'histoire" qui se cache derrière l'entrée visuelle. "l'histoire" qui se cache derrière les données visuelles. Cette approche holistique est essentielle pour créer des systèmes qui interagissent avec le monde physique, qu'il s'agisse de véhicules autonomes naviguant dans le trafic ou les assistants intelligents qui surveillent la sécurité de la maison.
L'architecture technique qui sous-tend la compréhension vidéo est beaucoup plus complexe que la détection statique d'objets. statique. Pour traiter efficacement les vidéos, les modèles d'apprentissage profond doivent les modèles d'apprentissage profond doivent traiter simultanément les caractéristiques spatiales (l'apparence des objets) et les caractéristiques temporelles (la façon dont ces objets se déplacent et changent).
Les systèmes modernes utilisent souvent un pipeline à plusieurs étapes :
Ce processus est souvent soutenu par techniques de flux optique pour track explicitement les vecteurs de entre les images, améliorant ainsi la capacité du modèle à discerner les modèles de mouvement. Les progrès de l'edge computing informatiques permettent à ces tâches à forte intensité de calcul d'être de calcul d'être exécutées localement sur des appareils l 'inférence en temps réel.
Il est important de distinguer la compréhension vidéo des tâches connexes de vision par ordinateur afin d'en apprécier la portée :
La capacité à comprendre les scènes dynamiques est le moteur de l'innovation dans les principales industries :
Une étape fondamentale dans la compréhension des vidéos est le suivi fiable des objets. L'exemple suivant montre comment mettre en œuvre le suivi à l'aide de l'outil Ultralytics YOLO11 d'Ultralytics. Ce modèle permet d'établir la continuité temporelle nécessaire à une analyse de plus haut niveau. À l'avenir, les modèles à venir tels que YOLO26 visent à intégrer davantage ces capacités pour un pour un traitement vidéo de bout en bout plus rapide.
from ultralytics import YOLO
# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")
# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)
# Process results to extract tracking IDs and class names
for result in results:
boxes = result.boxes.xywh.cpu()
track_ids = result.boxes.id.int().cpu().tolist()
print(f"Detected IDs in this frame: {track_ids}")
Malgré des progrès significatifs, la compréhension des vidéos est confrontée à des défis tels que des coûts de calcul élevés et la difficulté de traiter les images. coûts de calcul élevés et la difficulté de traiter les occlusions où les objets disparaissent temporairement de la vue. disparaissent temporairement de la vue. Les chercheurs travaillent activement sur des architectures de modèles efficaces pour réduire la latence et l'apprentissage auto-supervisé pour former des modèles sur de grandes quantités de données vidéo non étiquetées.
Des outils comme NVIDIA TensorRT et ONNX sont fréquemment utilisés pour pour optimiser ces modèles lourds en vue de leur déploiement. Au fur et à mesure que le domaine progresse, on peut s'attendre à une intégration plus étroite de l'IA l 'IA multimodale, combinant la vidéo avec l'audio et le texte pour une compréhension encore plus profonde.