Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Videoanalyse

Entdecken Sie Video Understanding, die fortschrittliche KI, die Aktionen und Ereignisse in Videos interpretiert. Erfahren Sie, wie sie funktioniert und Anwendungen im autonomen Fahren und in der intelligenten Sicherheit unterstützt.

Videoanalyse ist ein fortschrittliches Gebiet der Künstlichen Intelligenz (KI) und des Computer Vision (CV), das es Maschinen ermöglicht, den Inhalt von Videos automatisch zu interpretieren und zu analysieren. Im Gegensatz zur Verarbeitung statischer Bilder beinhaltet die Videoanalyse die Analyse von Frame-Sequenzen, um nicht nur Objekte, sondern auch ihre Aktionen, Interaktionen und den zeitlichen Kontext von Ereignissen zu erkennen. Sie zielt darauf ab, ein ganzheitliches Verständnis von Videodaten zu erreichen, ähnlich wie Menschen dynamische Szenen wahrnehmen und interpretieren. Diese Fähigkeit ist grundlegend für eine breite Palette von Anwendungen, von autonomen Fahrzeugen bis hin zu automatisierter Überwachung und Inhaltsmoderation.

Wie Video-Verständnis funktioniert

Videoanalysesysteme integrieren typischerweise mehrere KI-Techniken, um visuelle und zeitliche Informationen zu verarbeiten und zu interpretieren. Der Prozess beginnt mit grundlegenden Computer-Vision-Aufgaben, die an einzelnen Videoframes durchgeführt werden. Diese Aufgaben umfassen oft:

  • Objekterkennung: Identifizierung und Lokalisierung von Objekten innerhalb jedes Frames. Modelle wie Ultralytics YOLO sind für diesen ersten Schritt sehr effektiv.
  • Objektverfolgung: Verfolgung der identifizierten Objekte über eine Sequenz von Frames hinweg, um ihre Bewegung und Persistenz zu verstehen.
  • Pose Estimation: Erkennung der Haltung und der wichtigsten Punkte des menschlichen Körpers, was für die Analyse menschlicher Handlungen von entscheidender Bedeutung ist.
  • Bildsegmentierung: Klassifizierung jedes Pixels in einem Frame, um die genaue Form und die Grenzen von Objekten zu verstehen.

Sobald diese räumlichen Merkmale extrahiert sind, analysiert das System sie im Zeitverlauf mithilfe von Modellen, die für sequentielle Daten entwickelt wurden, wie z. B. rekurrente neuronale Netze (RNNs) oder, häufiger in modernen Architekturen, Transformer-Netzwerke. Diese Modelle identifizieren Muster in der Art und Weise, wie sich Objekte und Szenen verändern, und ermöglichen so Aufgaben höherer Ebene wie Aktionserkennung, Ereigniserkennung und Videozusammenfassung. Einige fortschrittliche Architekturen, wie z. B. 3D Convolutional Neural Networks, sind so konzipiert, dass sie räumliche und zeitliche Merkmale gleichzeitig erlernen. Der gesamte Prozess wird in einem zusammenhängenden Machine Learning Operations (MLOps)-Framework verwaltet, um effizientes Training, Deployment und Monitoring zu gewährleisten.

Video Understanding vs. verwandte Konzepte

Es ist wichtig, Video Understanding von anderen verwandten Computer-Vision-Aufgaben zu unterscheiden.

  • Videoverständnis vs. Objekterkennung/Tracking: Objekterkennung identifiziert, was sich in einem einzelnen Frame befindet, und Objekttracking verfolgt diese Objekte über mehrere Frames hinweg. Videoverständnis verwendet die Ausgaben dieser Aufgaben, um das Warum zu interpretieren—die Aktionen, Ereignisse und Interaktionen, die im Laufe der Zeit stattfinden. Zum Beispiel ist das Verfolgen einer Person Objekttracking; die Identifizierung, dass die Person eine Tür öffnet, ist Videoverständnis.
  • Videoverständnis vs. Bilderkennung: Bilderkennung konzentriert sich auf die Klassifizierung von Objekten oder Szenen innerhalb eines einzelnen, statischen Bildes. Videoverständnis erweitert dieses Konzept in die zeitliche Dimension und analysiert eine Sequenz von Bildern, um dynamische Ereignisse zu verstehen. Es erfordert das Verständnis nicht nur des "Was", sondern auch des "Wie" und "Wann".
  • Videoverständnis vs. Text-to-Video: Text-to-Video ist eine generative KI-Aufgabe, die Videoinhalte aus textuellen Beschreibungen erstellt. Umgekehrt ist Videoverständnis eine analytische Aufgabe, die aus vorhandenen Videoinhalten Bedeutung extrahiert und Beschreibungen oder strukturierte Daten generiert.

Anwendungsfälle in der Praxis

Videoanalyse treibt eine wachsende Zahl innovativer Lösungen in verschiedenen Branchen voran.

  1. Smart Surveillance and Security: In Sicherheitsanwendungen können Video-Understanding-Systeme ungewöhnliche Aktivitäten automatisch erkennen. Beispielsweise kann ein System Überwachungs-Feeds in einem Krankenhaus überwachen, um zu erkennen, wann ein Patient stürzt, oder den Verkehr in einem Einzelhandelsgeschäft analysieren, um Diebstahl zu erkennen. Diese Systeme gehen über die einfache Bewegungserkennung hinaus, indem sie den Kontext von Aktionen verstehen, wodurch Fehlalarme erheblich reduziert und schnellere Reaktionen ermöglicht werden. Sie können mehr erfahren, indem Sie über die Verbesserung der intelligenten Überwachung mit Ultralytics YOLO11 lesen.
  2. Autonomes Fahren: Für selbstfahrende Autos ist das Verständnis der Straße entscheidend. Modelle zum Videoverständnis analysieren Feeds von Kameras, um die Absichten von Fußgängern vorherzusagen, das Verhalten anderer Fahrzeuge zu interpretieren und Verkehrssignale in komplexen Szenarien zu erkennen. Dieses tiefe Verständnis ist für eine sichere und zuverlässige Navigation unerlässlich. Dieses Feld stützt sich oft auf umfangreiche Forschung im Bereich der Aktionserkennung für autonome Systeme.

Weitere Anwendungen umfassen die Inhaltsmoderation auf Social-Media-Plattformen durch das Markieren unangemessener Videos, Sportanalysen durch Zusammenfassen von Spielhighlights und die Schaffung interaktiver Erlebnisse im Unterhaltungsbereich. Plattformen wie Ultralytics HUB bieten die Werkzeuge zum Trainieren von benutzerdefinierten Modellen für diese spezialisierten Aufgaben, während Integrationen mit Tools wie TensorRT diese für Echtzeit-Inferenz optimieren.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert