Entdecken Sie, wie Echtzeit-Inferenz mit Ultralytics YOLO sofortige Vorhersagen für KI-Anwendungen wie autonomes Fahren und Sicherheitssysteme ermöglicht.
Echtzeit-Inferenz ist der Prozess, bei dem ein trainiertes Modell für maschinelles Lernen Live-Eingabedaten annimmt und fast augenblicklich eine Vorhersage erstellt. In diesem Zusammenhang bedeutet "Echtzeit", dass die Verarbeitungs Geschwindigkeit ausreicht, um mit dem Fluss der eingehenden Daten Schritt zu halten, so dass das System sofortige Entscheidungen treffen kann. Diese Fähigkeit ist ein Eckpfeiler der modernen Computer-Vision-Anwendungen, die es Geräten ermöglichen ihre Umgebung mit minimaler Verzögerung wahrzunehmen und auf sie zu reagieren.
Die wichtigste Kennzahl zur Bewertung der Echtzeitleistung ist Inferenzlatenz, die die Zeit misst gemessen wird, die zwischen dem Empfang einer Eingabe durch das Modell und der Produktion einer Ausgabe vergeht. Damit ein System als echtzeitfähig gilt, muss diese Latenzzeit niedrig genug sein, um die spezifischen Zeitvorgaben des Anwendungsfalls zu erfüllen. Zum Beispiel kann ein Videoverstehenssystem, das einen Datenstrom mit 30 Bildern pro Sekunde (FPS) analysiert, hat etwa 33 Millisekunden Zeit, um jedes Bild zu verarbeiten. Wenn die Inferenz länger dauert, werden Bilder werden Bilder ausgelassen, und das System verzögert sich.
Um diese Geschwindigkeit zu erreichen, ist oft der Einsatz von Spezialhardware wie GPUs oder spezielle Edge-KI-Beschleuniger, wie zum Beispiel die NVIDIA Jetson-Plattform. Zusätzlich, Ingenieure häufig auf Modelloptimierungstechniken um die Berechnungskomplexität zu verringern, ohne die Genauigkeit wesentlich zu beeinträchtigen.
Es ist wichtig, zwischen Echtzeit-Workflows und Batch-Inferenz zu unterscheiden. Während bei der Echtzeit-Inferenz die Datenpunkte einzeln verarbeitet werden, sobald sie eintreffen, um die Latenzzeit zu minimieren, werden bei der Batch-Inferenz Daten in großen Stücken, die zu einem späteren Zeitpunkt verarbeitet werden.
Die Fähigkeit, sofortige Vorhersagen zu treffen, hat mehrere Branchen verändert, indem sie komplexe Aufgaben automatisiert hat, die Entscheidungen in Sekundenbruchteilen erfordern.
Um die für Echtzeitanwendungen erforderliche Geschwindigkeit zu erreichen, setzen Entwickler häufig Modelle mit optimierten Inferenz Motoren. Frameworks wie TensorRT für NVIDIA Hardware oder OpenVINO für Intel können die Leistung erheblich beschleunigen. Außerdem können Techniken wie die Modellquantisierung - diedie Genauigkeit der Genauigkeit der Modellgewichte von Fließkomma- auf Ganzzahlwerte reduziert wird, können den Speicherbedarf drastisch reduzieren und die Ausführungsgeschwindigkeit auf eingebetteten Systemen.
Das folgende Python veranschaulicht, wie eine Echtzeit-Inferenz auf einem Webcam-Feed unter Verwendung der
ultralytics Bibliothek.
from ultralytics import YOLO
# Load the official YOLO11 nano model, optimized for speed
model = YOLO("yolo11n.pt")
# Run inference on the default webcam (source=0)
# 'stream=True' creates a generator for memory-efficient real-time processing
# 'show=True' displays the video feed with prediction overlays
results = model.predict(source="0", stream=True, show=True)
# Process the generator to keep the stream running
for result in results:
pass
Da die 5G-Konnektivität zunimmt und die Hardware immer leistungsfähiger wird, wächst der Anwendungsbereich der Echtzeit-KI. Konzepte wie Internet der Dinge (IoT) werden immer intelligenter und entwickeln sich von einfachen Datensammlern zu aktiven Entscheidungsträgern. Künftige Entwicklungen, wie wie das kommende YOLO26, zielen darauf ab, diese Grenzen weiter zu verschieben indem sie native End-to-End-Modelle anbieten, die noch kleiner und schneller sind und sicherstellen, dass intelligente Städte und medizinische Geräte nahtlos in Echtzeit arbeiten können.