Glossar

Video-Verständnis

Entdecken Sie Video Understanding, die fortschrittliche KI, die Aktionen und Ereignisse in Videos interpretiert. Erfahren Sie, wie es funktioniert und Anwendungen für autonomes Fahren und intelligente Sicherheit unterstützt.

Videoverstehen ist ein fortschrittlicher Bereich der Künstlichen Intelligenz (KI) und der Computer Vision (CV), der es Maschinen ermöglicht, den Inhalt von Videos automatisch zu interpretieren und zu analysieren. Anders als bei der Verarbeitung statischer Bilder geht es beim Videoverstehen um die Analyse von Bildsequenzen, um nicht nur Objekte, sondern auch deren Aktionen, Interaktionen und den zeitlichen Kontext von Ereignissen zu erkennen. Ziel ist es, ein ganzheitliches Verständnis von Videodaten zu erreichen, ähnlich wie Menschen dynamische Szenen wahrnehmen und interpretieren. Diese Fähigkeit ist die Grundlage für eine Vielzahl von Anwendungen, von autonomen Fahrzeugen bis hin zu automatischer Überwachung und Inhaltsmoderation.

Wie Videoverstehen funktioniert

Videoverstehenssysteme integrieren in der Regel mehrere KI-Techniken zur Verarbeitung und Interpretation visueller und zeitlicher Informationen. Der Prozess beginnt mit grundlegenden Computer-Vision-Aufgaben, die an einzelnen Videobildern durchgeführt werden. Diese Aufgaben umfassen häufig:

  • Objekt-Erkennung: Identifizierung und Lokalisierung von Objekten in jedem Bild. Modelle wie Ultralytics YOLO sind für diesen ersten Schritt sehr effektiv.
  • Objektverfolgung: Verfolgung der identifizierten Objekte über eine Abfolge von Einzelbildern, um ihre Bewegung und Persistenz zu verstehen.
  • Schätzung der Körperhaltung: Erkennen der Körperhaltung und der wichtigsten Punkte des menschlichen Körpers, was für die Analyse menschlicher Handlungen entscheidend ist.
  • Bildsegmentierung: Klassifizierung jedes Pixels in einem Bild, um die genaue Form und die Grenzen von Objekten zu verstehen.

Sobald diese räumlichen Merkmale extrahiert sind, analysiert das System sie im Laufe der Zeit mithilfe von Modellen, die für sequenzielle Daten entwickelt wurden, wie z. B. rekurrente neuronale Netze (RNNs) oder, was in modernen Architekturen üblicher ist, Transformer-Netze. Diese Modelle erkennen Muster darin, wie sich Objekte und Szenen verändern, und ermöglichen so übergeordnete Aufgaben wie Handlungserkennung, Ereigniserkennung und Videozusammenfassung. Einige fortschrittliche Architekturen, wie 3D Convolutional Neural Networks, sind so konzipiert, dass sie räumliche und zeitliche Merkmale gleichzeitig lernen. Der gesamte Prozess wird innerhalb eines kohärenten Rahmens für Machine Learning Operations (MLOps) verwaltet, um eine effiziente Schulung, Bereitstellung und Überwachung zu gewährleisten.

Video-Verständnis vs. verwandte Konzepte

Es ist wichtig, Videoverstehen von anderen verwandten Computer-Vision-Aufgaben zu unterscheiden.

  • Videoverstehen vs. Objekterkennung/-verfolgung: Die Objekterkennung identifiziert, was sich in einem Einzelbild befindet, und die Objektverfolgung verfolgt diese Objekte über mehrere Bilder hinweg. Video Understanding verwendet die Ergebnisse dieser Aufgaben, um das Warumzu interpretieren - dieAktionen, Ereignisse und Interaktionen, die im Laufe der Zeit stattfinden. Das Verfolgen einer Person ist zum Beispiel Objektverfolgung; das Erkennen, dass die Person eine Tür öffnet, ist Videoverstehen.
  • Videoverstehen vs. Bilderkennung: Die Bilderkennung konzentriert sich auf die Klassifizierung von Objekten oder Szenen in einem einzelnen, statischen Bild. Beim Videoverstehen wird dieses Konzept auf die zeitliche Dimension ausgedehnt, indem eine Abfolge von Bildern analysiert wird, um dynamische Ereignisse zu verstehen. Dazu muss man nicht nur das "Was", sondern auch das "Wie" und "Wann" verstehen.
  • Videoverstehen vs. Text-to-Video: Text-to-Video ist eine generative KI-Aufgabe, die Videoinhalte aus Textbeschreibungen erstellt. Im Gegensatz dazu ist das Verstehen von Videos eine analytische Aufgabe, die Bedeutung extrahiert und Beschreibungen oder strukturierte Daten aus vorhandenen Videoinhalten erzeugt.

Anwendungen in der realen Welt

Videoverständnis ist die Grundlage für eine wachsende Zahl innovativer Lösungen in verschiedenen Branchen.

  1. Intelligente Überwachung und Sicherheit: Bei Sicherheitsanwendungen können Videoverstehenssysteme automatisch ungewöhnliche Aktivitäten erkennen. So kann ein System beispielsweise Überwachungsaufnahmen in einem Krankenhaus überwachen, um zu erkennen, wenn ein Patient stürzt, oder den Verkehr in einem Einzelhandelsgeschäft analysieren, um Diebstähle zu erkennen. Diese Systeme gehen über die einfache Bewegungserkennung hinaus, indem sie den Kontext von Aktionen verstehen, Fehlalarme erheblich reduzieren und schnellere Reaktionen ermöglichen. Lesen Sie mehr über die Verbesserung der intelligenten Überwachung mit Ultralytics YOLO11.
  2. Autonomes Fahren: Für selbstfahrende Autos ist es entscheidend, die Straße zu verstehen. Modelle für das Videoverständnis analysieren die Daten von Kameras, um die Absichten von Fußgängern vorherzusagen, das Verhalten anderer Fahrzeuge zu interpretieren und Verkehrssignale in komplexen Szenarien zu erkennen. Dieses tiefe Verständnis ist für eine sichere und zuverlässige Navigation unerlässlich. Dieser Bereich stützt sich häufig auf umfangreiche Forschungsarbeiten zur Handlungserkennung für autonome Systeme.

Weitere Anwendungen sind die Moderation von Inhalten auf Social-Media-Plattformen durch die Kennzeichnung unangemessener Videos, Sportanalysen durch die Zusammenfassung von Spielhighlights und die Schaffung interaktiver Erlebnisse in der Unterhaltung. Plattformen wie Ultralytics HUB bieten die Werkzeuge, um benutzerdefinierte Modelle für diese speziellen Aufgaben zu trainieren, während Integrationen mit Werkzeugen wie TensorRT sie für Echtzeit-Inferenz optimieren.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert