Glossar

Echtzeit-Inferenz

Entdecken Sie, wie Echtzeit-Inferenz mit Ultralytics YOLO sofortige Vorhersagen für KI-Anwendungen wie autonomes Fahren und Sicherheitssysteme ermöglicht.

Echtzeit-Inferenz ist der Prozess, bei dem ein trainiertes Modell für maschinelles Lernen Live-Eingabedaten annimmt und fast augenblicklich eine Vorhersage erstellt. In diesem Zusammenhang bedeutet "Echtzeit", dass die Verarbeitungs Geschwindigkeit ausreicht, um mit dem Fluss der eingehenden Daten Schritt zu halten, so dass das System sofortige Entscheidungen treffen kann. Diese Fähigkeit ist ein Eckpfeiler der modernen Computer-Vision-Anwendungen, die es Geräten ermöglichen ihre Umgebung mit minimaler Verzögerung wahrzunehmen und auf sie zu reagieren.

Die Bedeutung einer niedrigen Latenzzeit

Die wichtigste Kennzahl zur Bewertung der Echtzeitleistung ist Inferenzlatenz, die die Zeit misst gemessen wird, die zwischen dem Empfang einer Eingabe durch das Modell und der Produktion einer Ausgabe vergeht. Damit ein System als echtzeitfähig gilt, muss diese Latenzzeit niedrig genug sein, um die spezifischen Zeitvorgaben des Anwendungsfalls zu erfüllen. Zum Beispiel kann ein Videoverstehenssystem, das einen Datenstrom mit 30 Bildern pro Sekunde (FPS) analysiert, hat etwa 33 Millisekunden Zeit, um jedes Bild zu verarbeiten. Wenn die Inferenz länger dauert, werden Bilder werden Bilder ausgelassen, und das System verzögert sich.

Um diese Geschwindigkeit zu erreichen, ist oft der Einsatz von Spezialhardware wie GPUs oder spezielle Edge-KI-Beschleuniger, wie zum Beispiel die NVIDIA Jetson-Plattform. Zusätzlich, Ingenieure häufig auf Modelloptimierungstechniken um die Berechnungskomplexität zu verringern, ohne die Genauigkeit wesentlich zu beeinträchtigen.

Echtzeit-Inferenz vs. Batch-Inferenz

Es ist wichtig, zwischen Echtzeit-Workflows und Batch-Inferenz zu unterscheiden. Während bei der Echtzeit-Inferenz die Datenpunkte einzeln verarbeitet werden, sobald sie eintreffen, um die Latenzzeit zu minimieren, werden bei der Batch-Inferenz Daten in großen Stücken, die zu einem späteren Zeitpunkt verarbeitet werden.

Inferenz in Echtzeit: Geschwindigkeit und unmittelbare Reaktionsfähigkeit stehen im Vordergrund. Wesentlich für interaktive Anwendungen wie autonome Fahrzeuge oder Entriegelung durch Gesichtserkennung.
Batch-Inferenz: Priorität haben hoher Durchsatz und Recheneffizienz. Geeignet für nicht dringende Aufgaben wie die Analyse historischer Datensätze oder die Erstellung nächtlicher Server-Berichte.

Anwendungsfälle in der Praxis

Die Fähigkeit, sofortige Vorhersagen zu treffen, hat mehrere Branchen verändert, indem sie komplexe Aufgaben automatisiert hat, die Entscheidungen in Sekundenbruchteilen erfordern.

Autonome Systeme: Auf dem Gebiet der KI im Automobilbereich sind selbstfahrende Autos auf Echtzeit-Inferenz angewiesen. Ein Objekterkennungsmodell muss sofort Fußgänger Fußgänger, Verkehrsschilder und andere Fahrzeuge erkennen, um sicher zu navigieren. Jede erhebliche Verzögerung in dieser Verarbeitungspipeline könnte zu gefährlichen Unfällen führen.
Intelligente Fertigung: Moderne Fabriken nutzen KI in der Fertigung, um eine automatisierte Qualitätskontrolle. An Produktionslinien installierte Kameras verwenden Modelle wie Ultralytics YOLO11 um die Produkte auf den sich schnell bewegenden Förderbändern. Das System führt eine Anomalieerkennung, um Defekte sofort zu erkennen, und löst einen Mechanismus aus, um fehlerhafte Produkte auszusortieren, bevor sie die Verpackung erreichen.

Optimierung für Geschwindigkeit

Um die für Echtzeitanwendungen erforderliche Geschwindigkeit zu erreichen, setzen Entwickler häufig Modelle mit optimierten Inferenz Motoren. Frameworks wie TensorRT für NVIDIA Hardware oder OpenVINO für Intel können die Leistung erheblich beschleunigen. Außerdem können Techniken wie die Modellquantisierung - diedie Genauigkeit der Genauigkeit der Modellgewichte von Fließkomma- auf Ganzzahlwerte reduziert wird, können den Speicherbedarf drastisch reduzieren und die Ausführungsgeschwindigkeit auf eingebetteten Systemen.

Das folgende Python veranschaulicht, wie eine Echtzeit-Inferenz auf einem Webcam-Feed unter Verwendung der ultralytics Bibliothek.

from ultralytics import YOLO

# Load the official YOLO11 nano model, optimized for speed
model = YOLO("yolo11n.pt")

# Run inference on the default webcam (source=0)
# 'stream=True' creates a generator for memory-efficient real-time processing
# 'show=True' displays the video feed with prediction overlays
results = model.predict(source="0", stream=True, show=True)

# Process the generator to keep the stream running
for result in results:
    pass

Die Zukunft der Echtzeit-KI

Da die 5G-Konnektivität zunimmt und die Hardware immer leistungsfähiger wird, wächst der Anwendungsbereich der Echtzeit-KI. Konzepte wie Internet der Dinge (IoT) werden immer intelligenter und entwickeln sich von einfachen Datensammlern zu aktiven Entscheidungsträgern. Künftige Entwicklungen, wie wie das kommende YOLO26, zielen darauf ab, diese Grenzen weiter zu verschieben indem sie native End-to-End-Modelle anbieten, die noch kleiner und schneller sind und sicherstellen, dass intelligente Städte und medizinische Geräte nahtlos in Echtzeit arbeiten können.

Echtzeit-Inferenz

Trainieren Sie Ultralytics YOLO zur Rationalisierung von Arbeitsabläufen in verschiedenen Branchen

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Die Bedeutung einer niedrigen Latenzzeit

Echtzeit-Inferenz vs. Batch-Inferenz

Anwendungsfälle in der Praxis

Optimierung für Geschwindigkeit

Die Zukunft der Echtzeit-KI

Mehr in dieser Kategorie lesen

Verstehen, warum Annotationen durch Menschen entscheidend sind

Was ist Datensatzdestillation? Ein kurzer Überblick

Die Oakley Meta AI-Brille definiert mit Vision AI die Welt der Brillen neu.

Werden Sie Mitglied der Ultralytics