Entdecken Sie Video Understanding, die fortschrittliche KI, die Aktionen und Ereignisse in Videos interpretiert. Erfahren Sie, wie sie funktioniert und Anwendungen im autonomen Fahren und in der intelligenten Sicherheit unterstützt.
Videoverständnis bezieht sich auf die Fähigkeit von Modellen des maschinellen Lernens, visuelle Daten im Zeitverlauf zu verarbeiten, zu analysieren und zu verstehen . Im Gegensatz zur Bilderkennung, bei der statische Momentaufnahmen analysiert werden, umfasst das Videoverstehen die Interpretation von Bildsequenzen, um zeitliche Dynamiken, Kontexte und kausale Zusammenhänge zu erfassen. Dadurch kann ein KI-System nicht nur Objekte identifizieren, sondern auch Handlungen, Ereignisse und die „Geschichte“, die sich in einem Videoclip entfaltet, verstehen. Es ist eine wichtige Komponente der modernen Computervision (CV), die dynamische Anwendungen von der autonomen Navigation bis hin zur automatisierten Sportanalyse ermöglicht.
Die Analyse von Videos erfordert den Umgang mit zwei unterschiedlichen Arten von Informationen: räumlichen und zeitlichen. Räumliche Merkmale beziehen sich auf das, was in einem einzelnen Bild erscheint (Objekte, Hintergründe, Texturen), während zeitliche Merkmale beschreiben, wie sich diese Elemente im Laufe der Zeit verändern (Bewegung, Geschwindigkeit, Interaktion).
Moderne Videoerkennungssysteme verwenden häufig einen mehrstufigen Ansatz:
Das Verstehen von Videos verändert Branchen, indem es komplexe visuelle Aufgaben automatisiert, die zuvor menschliche Beobachtung erforderten.
Es ist wichtig, das Verstehen von Videos von anderen Aufgaben der Bildverarbeitung zu unterscheiden:
Ein grundlegender Baustein für das Verständnis von Videos ist die robuste Objekterkennung und -verfolgung. Das folgende Beispiel zeigt, wie die Verfolgung mit dem Ultralytics implementiert werden kann. Damit wird die zeitliche Kontinuität hergestellt, die für eine übergeordnete Verhaltensanalyse erforderlich ist.
import cv2
from ultralytics import YOLO
# Load the YOLO26 model (nano version for speed)
model = YOLO("yolo26n.pt")
# Open a video file
video_path = "path/to/video.mp4"
cap = cv2.VideoCapture(video_path)
# Process video frames
while cap.isOpened():
success, frame = cap.read()
if success:
# Track objects with persistence to maintain IDs over time
results = model.track(frame, persist=True)
# Visualize the results
annotated_frame = results[0].plot()
cv2.imshow("YOLO26 Tracking", annotated_frame)
if cv2.waitKey(1) & 0xFF == ord("q"):
break
else:
break
cap.release()
cv2.destroyAllWindows()
Trotz der Fortschritte ist das Verstehen von Videos aufgrund der schieren Datenmenge in hochauflösenden Videostreams nach wie vor rechenintensiv. Forscher arbeiten aktiv an der Entwicklung effizienterer Modellarchitekturen, um die Latenz und die Rechenkosten zu reduzieren. Techniken wie die Modellquantisierung und -beschneidung sind für den Einsatz dieser Modelle auf Edge-Geräten unerlässlich.
Zukünftige Entwicklungen weisen in Richtung multimodaler KI, bei der Videodaten mit Audio- und Textkontext kombiniert werden, um ein tieferes Verständnis zu ermöglichen. Ein Modell könnte beispielsweise das Geräusch quietschender Reifen in Verbindung mit visuellen Daten nutzen, um einen Verkehrsunfall schneller zu erkennen. Tools wie NVIDIA TensorRT und OpenVINO spielen weiterhin eine wichtige Rolle bei der Optimierung dieser komplexen Modelle für Echtzeit-Inferenzen.