Glossar

Optischer Fluss

Entdecken Sie die Leistungsfähigkeit von Optical Flow in der Computer Vision. Erfahren Sie, wie es Bewegungen schätzt, die Videoanalyse verbessert und Innovationen in der KI vorantreibt.

Optischer Fluss ist ein zentrales Konzept in der Computer Vision (CV), bei dem es darum geht, die Bewegung von Objekten, Oberflächen und Kanten in einer visuellen Szene abzuschätzen, die durch die relative Bewegung zwischen einem Beobachter (wie einer Kamera) und der Szene verursacht wird. Es berechnet ein Feld von Vektoren, die die Richtung und Geschwindigkeit der Bewegung von Pixeln oder Merkmalen zwischen zwei aufeinanderfolgenden Videobildern beschreiben. Auf diese Weise erhält man ein detailliertes Low-Level-Verständnis davon, "wie" sich die Dinge bewegen, was für viele Aufgaben der dynamischen Szenenanalyse grundlegend ist.

Wie der optische Fluss funktioniert

Die zentrale Annahme hinter den meisten optischen Flussalgorithmen ist die "Helligkeitskonstanz", die davon ausgeht, dass die Intensität eines Pixels, das einem bestimmten Punkt auf einem Objekt entspricht, über kurze Zeitintervalle konstant bleibt. Durch die Suche nach der Verschiebung, bei der diese Helligkeit erhalten bleibt, können die Algorithmen die Bewegung schätzen. Es gibt zwei Hauptansätze zur Berechnung des optischen Flusses:

  • Dichter optischer Fluss: Diese Methode berechnet einen Bewegungsvektor für jedes einzelne Pixel im Bild. Sie liefert ein sehr detailliertes Bewegungsfeld, das für Aufgaben wie die Bildsegmentierung und das Verständnis komplexer Szenendynamik nützlich ist. Die Horn-Schunck-Methode ist ein klassisches Beispiel, während moderne Deep-Learning-Modelle wie RAFT modernste Leistung bieten.
  • Sparse Optical Flow: Anstatt jedes Pixel zu analysieren, verfolgt diese Methode einen spärlichen Satz "interessanter" Merkmale (wie Ecken oder Schlüsselpunkte) über mehrere Bilder hinweg. Die Lucas-Kanade-Methode ist ein bekannter spärlicher Algorithmus. Dieser Ansatz ist rechnerisch effizienter und eignet sich gut für Anwendungen, bei denen nur die Bewegung bestimmter Punkte erforderlich ist, wie z. B. bei der Objektverfolgung.

Optischer Fluss vs. Objektverfolgung

Optischer Fluss und Objektverfolgung sind zwar verwandt, lösen aber unterschiedliche Probleme.

  • Der optische Fluss beschreibt die Bewegung von Pixeln auf niedriger Ebene. Seine Ausgabe ist eine Reihe von Vektoren, die die Bewegung zwischen zwei Bildern darstellen. Es versteht das Konzept eines "Objekts" nicht und behält seine Identität nicht über die Zeit bei.
  • Objektverfolgung ist eine übergeordnete Aufgabe, bei der es darum geht, ein bestimmtes Objekt zu lokalisieren und seinen Weg über mehrere Frames hinweg zu verfolgen und ihm eine einheitliche ID zuzuweisen. Verfolgungsalgorithmen verwenden häufig Techniken wie den optischen Fluss als Eingabe, um die Position eines Objekts im nächsten Bild vorherzusagen, nachdem es von einem Objekterkennungsmodell wie dem YOLO-Modell von Ultralytics identifiziert worden ist. Sie können dies im Objektverfolgungsmodus von Ultralytics in Aktion sehen.

Kurz gesagt, der optische Fluss beantwortet die Frage "Wie bewegen sich die Pixel?", während die Objektverfolgung die Frage "Wohin ist das Auto gefahren?" beantwortet.

Anwendungen in der realen Welt

Optischer Fluss ist entscheidend für viele Anwendungen, die ein Verständnis von Bewegungen in Videos erfordern:

  • Autonome Systeme: Autonome Fahrzeuge und Roboter nutzen den optischen Fluss für die visuelle Odometrie (Schätzung der Eigenbewegung), die Hinderniserkennung und das Verständnis der relativen Bewegung von Objekten in ihrer Umgebung. So kann ein selbstfahrendes Auto beispielsweise seine Geschwindigkeit relativ zur Straße einschätzen oder Fahrzeuge in der Nähe verfolgen. Unternehmen wie Waymo verlassen sich stark auf die Bewegungserkennung. Mehr über KI in selbstfahrenden Autos erfahren Sie hier.
  • Videokompression: Standards wie MPEG verwenden Techniken zur Bewegungsschätzung, die dem optischen Fluss ähneln, um nachfolgende Bilder auf der Grundlage der vorhergehenden vorherzusagen. Indem nur die Bewegungsvektoren und die Vorhersagefehler (Residuen) kodiert werden, wird eine erhebliche Datenkompression erreicht.
  • Erkennung von Handlungen: Das Verstehen menschlicher Handlungen in Videos, ein wichtiger Bestandteil der Posenschätzung, beinhaltet oft die Analyse von Bewegungsmustern, die aus dem optischen Fluss abgeleitet werden. Dies ist von entscheidender Bedeutung für Anwendungen in der Sportanalytik und intelligenten Fitnesstechnologie.
  • Video-Stabilisierung: Digitale Bildstabilisierungstechniken können mithilfe von optischem Fluss Verwacklungen der Kamera abschätzen und ausgleichen, was zu flüssigeren Videos führt. Diese Technologie ist in modernen Smartphones und Kameras weit verbreitet.
  • Medizinische Bildanalyse: Zur Verfolgung von Gewebebewegungen, z. B. der Bewegung des Herzmuskels in Echokardiogrammen oder der Verformung von Organen bei Eingriffen. Siehe Ressourcen wie die Zeitschrift Radiologie: Künstliche Intelligenz für verwandte Fortschritte.
  • Robotik: Ermöglicht Robotern die Navigation, die Interaktion mit Objekten und die Durchführung von Aufgaben auf der Grundlage von visuellem Feedback über die Bewegung in ihrer Umgebung. Die Integration mit Systemen wie ROS umfasst oft auch die Bewegungsanalyse.

Werkzeuge und Umsetzung

Bibliotheken wie OpenCV bieten Implementierungen klassischer optischer Flussalgorithmen, und ihre Dokumentation enthält detaillierte OpenCV Optical Flow Tutorials. Für Deep-Learning-Ansätze werden häufig Frameworks wie PyTorch (besuchen Sie die offizielle Website von PyTorch) und TensorFlow (besuchen Sie die offizielle Website von TensorFlow) verwendet, die häufig auf vortrainierte Modelle zurückgreifen, die über Plattformen wie Hugging Face verfügbar sind. Für das Training dieser Modelle sind große Videodatensätze mit echten Datenflüssen erforderlich, wie z. B. die Datensätze von FlyingThings3D oder Sintel. Plattformen wie Ultralytics HUB können bei der Verwaltung von Datensätzen und Modelltrainingsabläufen für verwandte Computer-Vision-Aufgaben helfen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert