Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Compréhension vidéo

Explorez la compréhension vidéo, l'IA avancée qui interprète les actions et les événements dans la vidéo. Découvrez comment elle fonctionne et alimente les applications dans la conduite autonome et la sécurité intelligente.

La compréhension vidéo est un domaine qui évolue rapidement au sein de la vision par ordinateur (VA) et l'intelligence artificielle (IA) qui qui vise à permettre aux machines d'interpréter et d'analyser des données visuelles au fil du temps. Contrairement à la reconnaissance d'images reconnaissance d'images standard, qui analyse des statiques, la compréhension vidéo traite des séquences d'images pour comprendre la dynamique temporelle temporelle, le contexte et les relations de cause à effet au sein d'une scène. Cette capacité permet aux systèmes non seulement d'identifier les Cette capacité permet aux systèmes non seulement d'identifier les objets présents, mais aussi de déduire ce qui se passe, de prédire les actions futures et de comprendre "l'histoire" qui se cache derrière l'entrée visuelle. "l'histoire" qui se cache derrière les données visuelles. Cette approche holistique est essentielle pour créer des systèmes qui interagissent avec le monde physique, qu'il s'agisse de véhicules autonomes naviguant dans le trafic ou les assistants intelligents qui surveillent la sécurité de la maison.

Mécanismes fondamentaux de l'analyse vidéo

L'architecture technique qui sous-tend la compréhension vidéo est beaucoup plus complexe que la détection statique d'objets. statique. Pour traiter efficacement les vidéos, les modèles d'apprentissage profond doivent les modèles d'apprentissage profond doivent traiter simultanément les caractéristiques spatiales (l'apparence des objets) et les caractéristiques temporelles (la façon dont ces objets se déplacent et changent).

Les systèmes modernes utilisent souvent un pipeline à plusieurs étapes :

  1. Analyse spatiale : Un réseau de base, souvent un réseau neuronal convolutif (CNN) ou un transformateur de vision (ViT), extrait les caractéristiques visuelles à partir d'images individuelles.
  2. Modélisation temporelle : Ces caractéristiques spatiales sont agrégées dans le temps à l'aide d'architectures telles que mémoire à long terme (LSTM) ou, de plus en plus, des modèles Transformer utilisant des mécanismes d'attention pour se concentrer sur d'attention pour se concentrer sur les événements pertinents sur la ligne de temps.
  3. Reconnaissance des actions : Le modèle classifie des activités spécifiques, telles que "courir", "tomber" ou "saluer", en utilisant souvent des ensembles de données conçus à cet effet. comme "courir", "tomber" ou "saluer", en utilisant souvent des ensembles de données conçus pour la reconnaissance d'actions. reconnaissance d'actions.

Ce processus est souvent soutenu par techniques de flux optique pour track explicitement les vecteurs de entre les images, améliorant ainsi la capacité du modèle à discerner les modèles de mouvement. Les progrès de l'edge computing informatiques permettent à ces tâches à forte intensité de calcul d'être de calcul d'être exécutées localement sur des appareils l 'inférence en temps réel.

Différencier les concepts clés

Il est important de distinguer la compréhension vidéo des tâches connexes de vision par ordinateur afin d'en apprécier la portée :

  • Compréhension vidéo et suivi d'objets : Alors que le suivi d'objet se concentre sur le maintien de l'identité d'une instance l'identité d'une instance spécifique à travers les images (par exemple, suivre une voiture), la compréhension vidéo interprète le comportement de cet objet (par exemple, la voiture se gare). comportement de cet objet (par exemple, la voiture se gare).
  • Compréhension vidéo vs. détection d'anomalies : La détection d'anomalies est un sous-ensemble de la compréhension vidéo vidéo spécialement conçue pour signaler les valeurs aberrantes ou les événements inhabituels, souvent utilisée dans le cadre de la surveillance intelligente. surveillance intelligente.
  • Compréhension vidéo vs. intelligence artificielle générative : alors que l'intelligence artificielle générative et l'intelligence artificielle générative sont en train de se développer. l'IA générative et les modèles les modèles de conversion de texte en vidéo créent de nouveaux contenus, la compréhension vidéo est un processus analytique qui extrait des informations structurées à partir de séquences existantes. est un processus analytique qui permet d'extraire des informations structurées à partir de séquences existantes.

Applications concrètes

La capacité à comprendre les scènes dynamiques est le moteur de l'innovation dans les principales industries :

  • Soins de santé et surveillance des patients : Les hôpitaux utilisent la compréhension vidéo pour surveiller les mouvements des patients sans surveillance humaine constante. patients sans surveillance humaine constante. En utilisant l 'estimation de la pose, les systèmes peuvent detect chutes ou analyser les progrès de la rééducation de la marche. détecter les chutes ou analyser les progrès de la rééducation de la démarche. Pour en savoir plus l 'IA dans les soins de santé pour voir comment ces technologies améliorent les résultats pour les patients.
  • L'analyse sportive : Les entraîneurs et les diffuseurs utilisent ces systèmes pour analyser automatiquement les stratégies des joueurs et la dynamique du jeu. dynamique du jeu. En suivant les points clés et en et en identifiant les jeux complexes, les équipes acquièrent un avantage concurrentiel grâce à des informations fondées sur des données. Découvrez notre point de vue sur l'IA dans l'analyse sportive.
  • Intelligence de la vente au détail : Les magasins analysent la fréquentation des clients et leur interaction avec les produits afin d'optimiser l'agencement. l'agencement. Cela implique segmentation des instances pour distinguer entre les clients individuels dans les allées bondées.

Mise en œuvre de l'analyse vidéo avec Ultralytics

Une étape fondamentale dans la compréhension des vidéos est le suivi fiable des objets. L'exemple suivant montre comment mettre en œuvre le suivi à l'aide de l'outil Ultralytics YOLO11 d'Ultralytics. Ce modèle permet d'établir la continuité temporelle nécessaire à une analyse de plus haut niveau. À l'avenir, les modèles à venir tels que YOLO26 visent à intégrer davantage ces capacités pour un pour un traitement vidéo de bout en bout plus rapide.

from ultralytics import YOLO

# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)

# Process results to extract tracking IDs and class names
for result in results:
    boxes = result.boxes.xywh.cpu()
    track_ids = result.boxes.id.int().cpu().tolist()
    print(f"Detected IDs in this frame: {track_ids}")

Défis et orientations futures

Malgré des progrès significatifs, la compréhension des vidéos est confrontée à des défis tels que des coûts de calcul élevés et la difficulté de traiter les images. coûts de calcul élevés et la difficulté de traiter les occlusions où les objets disparaissent temporairement de la vue. disparaissent temporairement de la vue. Les chercheurs travaillent activement sur des architectures de modèles efficaces pour réduire la latence et l'apprentissage auto-supervisé pour former des modèles sur de grandes quantités de données vidéo non étiquetées.

Des outils comme NVIDIA TensorRT et ONNX sont fréquemment utilisés pour pour optimiser ces modèles lourds en vue de leur déploiement. Au fur et à mesure que le domaine progresse, on peut s'attendre à une intégration plus étroite de l'IA l 'IA multimodale, combinant la vidéo avec l'audio et le texte pour une compréhension encore plus profonde.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant