Die Rolle von FPS in der Computer Vision verstehen

Abirami Vina

4 Minuten lesen

20. März 2025

Erfahren Sie, warum FPS in der Computer Vision wichtig ist und wie es sich auf die Echtzeit-Objekterkennung, Videoanalyse und KI-gestützte Anwendungen auswirkt.

Eine Zeitlupenwiederholung Ihres Lieblingssportmoments, bei der jedes Detail klar zu erkennen ist, unterscheidet sich deutlich von Überwachungsvideos, die in der Regel ruckeln und schwer zu verfolgen sind. Das wichtigste technische Detail, das hinter diesen Unterschieden steht, ist FPS (Frames Per Second), d. h. die Anzahl der Bilder, die pro Sekunde in einem Video angezeigt werden. Eine höhere FPS führt zu flüssigen, naturgetreuen Bewegungen, während eine niedrigere FPS zu ruckelnden, weniger detaillierten Aufnahmen führen kann.

Dieses Konzept wirkt sich direkt auf die Computer Vision aus, einen Zweig der künstlichen Intelligenz, der es Maschinen ermöglicht, visuelle Daten ähnlich zu interpretieren und zu analysieren, wie es Menschen tun. Bei der Computer Vision bedeutet eine höhere FPS, dass Systeme mehr Informationen pro Sekunde erfassen können, was die Genauigkeit der Objekterkennung und -verfolgung in Echtzeit verbessert.

In diesem Artikel werden wir uns mit den technischen Aspekten von FPS befassen und wie sie mit Computer-Vision-Anwendungen zusammenhängen. Legen wir los!

Was bedeutet FPS in der Computer Vision?

Nehmen wir an, Sie spielen ein Rennspiel: Bei 60 FPS fühlt sich jede Kurve flüssig und reaktionsschnell an, aber bei 20 FPS verzögert sich die Steuerung, was es schwieriger macht, Hindernissen auszuweichen. Einfach ausgedrückt, können Sie sich die FPS als die Anzahl der Standbilder vorstellen, die pro Sekunde angezeigt werden. Je mehr Bilder pro Sekunde, desto flüssiger und natürlicher wirkt die Bewegung, während weniger Bilder sie abgehackt wirken lassen.

Genau wie bei Spielen ist die Bildwiederholrate (FPS) ein wichtiger Bestandteil von Bildverarbeitungsanwendungen. Eine höhere FPS ermöglicht eine reibungslose Verfolgung von Objekten mit Vision AI, während eine niedrigere FPS dazu führen kann, dass Details übersehen werden. 

In der Sportanalyse benötigen KI-gestützte Kameras beispielsweise eine höhere FPS, um schnelle Pässe, Spielerbewegungen und Ballflugbahnen zu verfolgen. Eine niedrigere FPS kann dazu führen, dass ein wichtiger Fuß-Ball-Kontakt oder ein schneller Richtungswechsel übersehen wird, was die Genauigkeit der Analyse beeinträchtigt. 

Auch bei der Verkehrsüberwachung sind Systeme auf hohe FPS angewiesen, um rasende Fahrzeuge und Fahrbahnwechsel in Echtzeit zu erkennen. Die Wahl der richtigen FPS hängt von den spezifischen Anforderungen der jeweiligen Bildverarbeitungsanwendung ab, wobei Leistung, Effizienz und visuelle Klarheit abzuwägen sind.

__wf_reserved_inherit
Abb. 1. Vergleich verschiedener Bildraten.

Technische Aspekte von FPS in der Computer Vision

Nachdem wir nun erörtert haben, was FPS sind und wie sie in der Computer Vision verwendet werden, wollen wir uns nun mit den technischen Aspekten befassen - angefangen damit, wie man die FPS eines Videos berechnet. 

Dividiert man die Gesamtzahl der Bilder durch die Dauer in Sekunden, erhält man die FPS eines Videos. Wenn ein Video z. B. 96 Bilder über 4 Sekunden hat, ergibt das 24 FPS - d. h. 24 Bilder werden pro Sekunde angezeigt -, während 32 Bilder über 4 Sekunden 8 FPS ergeben. Python-Bibliotheken wie OpenCV können verwendet werden, um Video-Metadaten zu extrahieren, Bilder zu zählen und automatisch FPS zu berechnen, was den Prozess der Videoanalyse vereinfacht.

__wf_reserved_inherit
Abb. 2. 24 FPS vs. 8 FPS vs. 4FPS.

Faktoren, die die FPS eines Videos beeinflussen

Die Berechnung der FPS allein reicht jedoch nicht aus, um technische Entscheidungen bei der Entwicklung von Computer-Vision-Lösungen zu treffen. Es ist auch wichtig, die verschiedenen Faktoren zu berücksichtigen, die sich auf die effektive Bildrate auswirken können, wie z. B. Hardware-Funktionen, Software-Optimierungen und Umgebungsbedingungen. 

Im Folgenden werden diese Faktoren näher beleuchtet:

  • Hardware-Fähigkeiten: Die Qualität des Kamerasensors und die Verarbeitungsleistung des Geräts können bestimmen, wie viele Bilder pro Sekunde aufgenommen werden. Bessere Hardware bedeutet in der Regel Unterstützung für eine höhere FPS und flüssigere Videos.
  • Software-Optimierungen: Effiziente Videokodierungs- und -verarbeitungssoftware hilft bei der schnellen Extraktion und Analyse von Bildern. So wird sichergestellt, dass das Video ohne unnötige Verzögerungen verarbeitet wird.
  • Umgebungsbedingungen: Die Beleuchtung und die Bewegung in einer Szene wirken sich darauf aus, wie klar die Bilder aufgenommen werden. Gute Beleuchtung und mäßige Bewegung können die FPS verbessern, während schlechte Bedingungen möglicherweise eine höhere FPS erfordern, um die Klarheit zu erhalten.
  • Speicherbedarf: Mit einer höheren FPS werden mehr Bilder pro Sekunde aufgenommen, was zu einer größeren Dateigröße führt. Dies erhöht den Speicherbedarf und erfordert eine schnellere Datenverarbeitung, um eine reibungslose Wiedergabe zu gewährleisten.

Erforschung von FPS in Computer Vision Anwendungen

KI-Modelle wie Ultralytics YOLO11, die Echtzeit-Computer-Vision-Aufgaben unterstützen, können zur Analyse von Videos mit hohen Bildraten verwendet werden. Diese Echtzeitfähigkeit ist entscheidend für Anwendungen wie autonomes Fahren, Überwachung und Robotik, wo selbst kleine Verzögerungen zu erheblichen Fehlern führen können. 

Schauen wir uns einige reale Vision AI-Anwendungen an, bei denen eine hohe FPS für die Genauigkeit und Leistung entscheidend ist. 

Eine höhere Bildrate für Überwachungs- und Sicherheitslösungen

Überwachungssysteme, die Bereiche mit hohem Verkehrsaufkommen wie Autobahnen überwachen, verwenden eine hohe FPS, um kleinste Details zu erfassen und sicherzustellen, dass sich schnell bewegende Fahrzeuge eindeutig dokumentiert werden. Diese Klarheit ist für automatische Kennzeichenerkennungssysteme (ANPR) unerlässlich, die auf qualitativ hochwertiges Bildmaterial angewiesen sind, um Fahrzeuge genau zu identifizieren.

In solchen Systemen können Modelle wie YOLO11 verwendet werden, um Nummernschilder direkt aus dem Videomaterial zu erkennen. Sobald ein Nummernschild erkannt ist, wird die optische Zeichenerkennung (OCR), die Bilder von Text in maschinenlesbare Zeichen umwandelt, verwendet, um die Details des Kennzeichens zu lesen. Dieses Verfahren ermöglicht eine schnelle und genaue Fahrzeugidentifizierung und verbessert die Verkehrsüberwachung und die allgemeine Sicherheit.

__wf_reserved_inherit
Abb. 3. Verwendung von YOLO11 zur Erkennung von Nummernschildern.

Verstehen der FPS-Anforderungen für autonome Systeme

Stellen Sie sich ein selbstfahrendes Auto vor, das an einem Stoppschild steht und sorgfältig seine Umgebung analysiert, um zu entscheiden, ob es sicher weiterfahren kann. Dieses Auto muss fast augenblicklich Entscheidungen treffen, was die Erfassung und Verarbeitung visueller Daten in Echtzeit erfordert. 

Wenn das autonome Fahrzeug mit Kameras ausgestattet ist, die Aufnahmen mit einer höheren FPS machen können, erhält es einen kontinuierlichen und detaillierten Bildstrom. Dieser verbesserte visuelle Input ermöglicht es dem Fahrzeug, Hindernisse, Fußgänger und andere Fahrzeuge schnell zu erkennen. So kann das Fahrzeug schnell auf Veränderungen in seiner Umgebung reagieren.

Würden die Kameras die Bilder mit einer niedrigeren FPS verarbeiten, könnte das Fahrzeug eine abgehacktere, weniger detaillierte Ansicht erhalten. Dies könnte die Reaktionszeit verzögern und das Risiko erhöhen, wichtige Informationen zu verpassen und die Sicherheit zu gefährden.

Die Verbindung zwischen FPS und Sportanalytik

Die präzise Erfassung jeder Bewegung ist im Sport entscheidend, wo Sekundenbruchteile über Sieg oder Niederlage entscheiden können. Technologie, die eine höhere FPS unterstützt, ermöglicht es uns, jedes winzige Detail in der Bewegung aufzuzeichnen, und Trainer, Analysten und Athleten können Spiele in Zeitlupe überprüfen, ohne einen Takt zu verpassen. Außerdem können Schiedsrichter in Sportarten wie Tennis, Fußball und Kricket präzisere Entscheidungen treffen, da sie das Spielgeschehen klar und deutlich in Einzelbildern sehen können.

In einer interessanten Studie über Volleyball wurde zum Beispiel untersucht, wie die Verwendung höherer FPS die Leistungsbewertung verbessert. Die Erhöhung der FPS von 30 auf 240 verbesserte die Bewegungsklarheit und die Objektverfolgung erheblich. Auch die Genauigkeit der Spike-Analyse verbesserte sich, so dass die Trainer die Handposition, die Ballkontaktpunkte und die Sprungmechanik genauer verstehen konnten. Darüber hinaus ergab die Studie, dass eine höhere FPS die Bewegungsunschärfe reduziert, wodurch Aufschläge und Abwehrreaktionen leichter zu analysieren sind. 

__wf_reserved_inherit
Abb. 4. Vergleich zwischen niedrigen und hohen FPS in Bezug auf die Bewegungsklarheit.

Wann eine niedrige FPS bei der Videoanalyse effektiv ist

Nicht alle Computer-Vision-Anwendungen erfordern die Aufnahme von Filmmaterial mit einer höheren FPS. In vielen Fällen ist eine niedrigere FPS ausreichend, um genaue Ergebnisse zu erzielen, je nach Aufgabe. Hier sind einige wichtige Bereiche, in denen eine niedrigere FPS bevorzugt wird:

  • Offline-Nachbearbeitung und -Analyse: Für Anwendungen wie die Verkehrsüberwachung und die Analyse von Menschenansammlungen ist es nicht immer notwendig, jedes Bild mit einer hohen FPS zu erfassen. Eine niedrigere FPS kann immer noch genügend Daten für die Analyse von Bewegungsmustern liefern, z. B. Fahrzeugfluss, Fußgängerdichte und Stautrends. Durch die Reduzierung redundanter Bilder minimiert dieser Ansatz die Speicheranforderungen und die Rechenlast, während gleichzeitig genaue Analysen möglich sind.
  • Umweltüberwachung im Zeitraffer: Um langsame Veränderungen wie Pflanzenwachstum, Baufortschritt oder Gletscherbewegungen zu verfolgen, reicht es aus, alle paar Minuten oder einmal am Tag ein Bild aufzunehmen, um langfristige Veränderungen effektiv zu dokumentieren und gleichzeitig Speicherplatz zu sparen.
  • Ressourcenbeschränkte Umgebungen: Bei der Überwachung von Wildtieren und bei der Fernüberwachung hilft eine niedrigere FPS, Batterielebensdauer und Speicherplatz zu sparen. Bewegungsgesteuerte Kameras, die mit 5-10 FPS arbeiten, können wichtige Ereignisse über längere Zeiträume aufzeichnen und sind daher ideal für netzunabhängige Installationen.

Auswahl der richtigen FPS für Deep Learning-Anwendungen

Die Auswahl der idealen FPS erfordert ein Gleichgewicht zwischen Leistung und Systemgrenzen. Im Folgenden finden Sie einige Überlegungen, die Sie bei der Optimierung der FPS für Deep-Learning-Anwendungen beachten sollten:

  • Gleichgewicht zwischen Leistung und Ressourcen: Eine höhere FPS verbessert die Reaktionsfähigkeit, erhöht aber auch den Energie- und Verarbeitungsbedarf. Die dynamische Anpassung der FPS, die Verwendung von Frame-Interpolation und die Optimierung der Hardware können dazu beitragen, eine reibungslose Leistung zu gewährleisten, ohne das System zu überlasten.
  • Anwendungsspezifische Anforderungen: Verschiedene Anwendungen haben unterschiedliche FPS-Anforderungen. Batteriebetriebene Geräte sollten niedrigere FPS verwenden, um Energie zu sparen, während Echtzeitsysteme wie Drohnen und autonome Fahrzeuge höhere FPS für schnelle und präzise Reaktionen benötigen.
  • Testen und Optimieren: Die FPS-Einstellungen sollten idealerweise unter verschiedenen Beleuchtungs- und Bewegungsbedingungen getestet werden. Die Bewertung der Latenz und der Vergleich der FPS-Werte nebeneinander helfen dabei, die beste Balance zwischen Reaktionsfähigkeit, visueller Qualität und Ressourceneffizienz zu finden.

Zukünftige Innovationen und FPS-Optimierung für KI-Modelle

Dank Fortschritten in der KI und der Hardware-Optimierung sind höhere Bildraten auch in ressourcenbeschränkten Umgebungen möglich. So können beispielsweise Branchen wie Kino, Sport und Robotik von einer intelligenteren Bildratenverwaltung profitieren, bei der die Systeme die FPS dynamisch an die Komplexität der Bewegung und die Verarbeitungsleistung anpassen. KI-gesteuerte Frame-Interpolation verbessert außerdem die Glätte von Videos, indem zusätzliche Frames in Echtzeit generiert werden.

Inzwischen hat NVIDIA einen Durchbruch erzielt, der die FPS-Leistung noch weiter steigert. DLSS 4 (Deep Learning Super Sampling) führt die Multi-Frame-Generierung ein, die KI nutzt, um zusätzliche Frames vorherzusagen und zu erstellen. Dies steigert die Bildraten um das bis zu 8-fache und reduziert gleichzeitig die Arbeitslast des Systems.

Indem die KI einen Teil des Renderings übernimmt, sorgt DLSS 4 für eine flüssigere Darstellung, ohne die Hardware zusätzlich zu belasten, und verbessert so Leistung und Effizienz.

Die wichtigsten Erkenntnisse

FPS ist mehr als nur ein Maß für flüssige Bilder. Sie ist die Grundlage für Echtzeit-Entscheidungen in den Bereichen KI und Computer Vision. Jedes Bild in einem Video erfasst wichtige Daten, die es Maschinen ermöglichen, Objekte zu verfolgen, Bewegungen zu analysieren und auf dynamische Umgebungen zu reagieren. Ob selbstfahrende Autos, die Hindernissen ausweichen, oder Überwachungssysteme, die Bedrohungen sofort erkennen - die richtige FPS sorgt für Genauigkeit und Effizienz.

Die Zukunft von FPS liegt nicht nur in der Steigerung der Bildwiederholraten, sondern auch in deren intelligenter Optimierung. Diese Entwicklung wird Computer-Vision-Systeme in verschiedenen Branchen schneller, innovativer und ressourceneffizienter machen.

Möchten Sie mehr über KI erfahren? Erkunden Sie unser GitHub-Repository und werden Sie Mitglied unserer Community. Sind Sie bereit, Ihre eigenen Computer Vision-Projekte zu starten? Informieren Sie sich über unsere Lizenzierungsoptionen. Erfahren Sie, wie Computer Vision im Gesundheitswesen die Effizienz verbessert, und erkunden Sie die Auswirkungen von KI in der Fertigung, indem Sie unsere Lösungsseiten besuchen!

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert