Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Inference Latency

Erkunde die Bedeutung von Inferenzlatenz in der KI. Lerne, wie du Echtzeit-Performance mit Ultralytics YOLO26 für schnellere, reaktionsschnellere Anwendungen optimierst.

Inferenz-Latenz beschreibt die Zeitverzögerung zwischen dem Empfang eines Inputs – wie etwa eines Bildes oder einer Texteingabe – durch ein Machine Learning (ML)-Modell und der Erzeugung einer entsprechenden Ausgabe oder Vorhersage. Im Kontext der künstlichen Intelligenz (AI) wird diese Kennzahl typischerweise in Millisekunden (ms) gemessen und dient als kritischer Indikator für die Reaktionsfähigkeit eines Systems. Für Entwickler, die Computer Vision-Anwendungen erstellen, ist das Verständnis und die Minimierung der Latenz essenziell, um flüssige, interaktive Nutzererlebnisse zu schaffen, insbesondere beim Deployment von Modellen in Umgebungen mit begrenzten Ressourcen wie Mobiltelefonen oder eingebetteten Geräten.

Link to this sectionWarum Inferenz-Latenz wichtig ist#

Die Bedeutung der Inferenz-Latenz hängt stark vom jeweiligen Anwendungsfall ab. Während eine Verzögerung von einigen Sekunden bei einer Batch-Verarbeitung, wie etwa der Analyse eines nächtlichen Server-Berichts, akzeptabel sein mag, ist sie für interaktive Anwendungen oft inakzeptabel. Niedrige Latenz ist der Grundpfeiler der Echtzeit-Inferenz, bei der Systeme Daten verarbeiten und unmittelbar reagieren müssen.

Die Reduzierung der Latenz stellt sicher, dass AI Agents natürlich mit Menschen interagieren können und automatisierte Systeme sicher funktionieren. Hohe Latenz kann zu „ruckeligen“ Oberflächen, schlechter Nutzerbindung oder, in sicherheitskritischen Szenarien, zu gefährlichen Betriebsausfällen führen. Entwickler müssen oft den Kompromiss zwischen der Modellkomplexität – die die Genauigkeit verbessern kann – und der Ausführungsgeschwindigkeit abwägen.

Link to this sectionFaktoren, die die Latenz beeinflussen#

Mehrere technische Komponenten tragen zur Gesamtdauer bei, die für einen einzelnen Inferenz-Durchgang benötigt wird:

  • Modellarchitektur: Das Design des neuronalen Netzes (NN) ist ein Hauptfaktor. Tiefe Modelle mit vielen Schichten erfordern im Allgemeinen mehr Rechenleistung als flachere. Moderne Architekturen wie YOLO26 sind speziell darauf optimiert, hohe Genauigkeit bei minimalem Rechenaufwand zu liefern.
  • Hardware-Fähigkeiten: Die Wahl der Prozessoreinheit beeinflusst die Geschwindigkeit maßgeblich. Während eine CPU vielseitig einsetzbar ist, ist spezialisierte Hardware wie eine GPU (Graphics Processing Unit) oder eine TPU (Tensor Processing Unit) darauf ausgelegt, die für Deep Learning zentralen Matrixoperationen zu parallelisieren, was die Latenz erheblich reduziert.
  • Input-Größe: Die Verarbeitung von hochauflösenden 4K-Videoframes dauert länger als die Verarbeitung von standardmäßigen 640p-Bildern. Entwickler ändern oft die Größe der Inputs während der Datenvorverarbeitung, um den optimalen Mittelpunkt zwischen Geschwindigkeit und der Fähigkeit, kleine Details zu erkennen, zu finden.
  • Optimierungstechniken: Methoden wie Modellquantisierung (Konvertierung der Gewichte in eine geringere Präzision) und Modell-Pruning (Entfernen unnötiger Verbindungen) sind effektive Wege, um die Ausführung zu beschleunigen. Tools wie NVIDIA TensorRT können Modelle für spezifische Hardware weiter optimieren.

Link to this sectionPraxisanwendungen#

Die Auswirkungen der Inferenz-Latenz lassen sich am besten anhand praktischer Beispiele verdeutlichen, bei denen Geschwindigkeit nicht verhandelbar ist.

  1. Autonomes Fahren: Im Bereich AI in der Automobilindustrie muss ein selbstfahrendes Auto kontinuierlich seine Umgebung nach Fußgängern, anderen Fahrzeugen und Verkehrssignalen scannen. Wenn das Objekterkennungssystem eine hohe Latenz aufweist, könnte das Auto bei einem auftauchenden Hindernis nicht rechtzeitig bremsen. Eine Verzögerung von nur 100 Millisekunden bei Autobahngeschwindigkeit kann zu einem Bremsweg von mehreren Metern führen, was niedrige Latenz zu einer kritischen Sicherheitsanforderung macht.

  2. Hochfrequenzhandel: Finanzinstitute nutzen prädiktive Modellierung, um Markttrends zu analysieren und Trades auszuführen. Diese Algorithmen müssen riesige Datenmengen verarbeiten und Entscheidungen in Mikrosekunden treffen. In diesem Bereich führt eine geringere Latenz direkt zu einem Wettbewerbsvorteil, der es Firmen ermöglicht, flüchtige Marktchancen zu nutzen, bevor Wettbewerber reagieren können.

Link to this sectionLatenzmessung mit Python#

Du kannst die Inferenzgeschwindigkeit von Ultralytics Modellen ganz einfach mit dem Benchmark-Modus messen. Dies hilft bei der Auswahl der richtigen Modellgröße für deine spezifischen Hardwarebeschränkungen.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Benchmark the model on CPU to measure latency
# This provides a breakdown of preprocess, inference, and postprocess time
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

Link to this sectionInferenz-Latenz vs. Durchsatz#

Es ist wichtig, zwischen Latenz und Durchsatz zu unterscheiden, da es sich um verwandte, aber unterschiedliche Konzepte beim Modell-Deployment handelt.

  • Inferenz-Latenz misst die Zeit für eine einzelne Vorhersage (z. B. „Die Verarbeitung dieses Bildes dauerte 20 ms“). Dies ist die wichtigste Kennzahl für Echtzeitanwendungen für einzelne Nutzer.
  • Durchsatz misst das Volumen an Vorhersagen über einen bestimmten Zeitraum (z. B. „Das System verarbeitete 500 Bilder pro Sekunde“). Ein hoher Durchsatz wird oft durch Erhöhung der Batch-Size erreicht, wodurch viele Inputs gleichzeitig verarbeitet werden. Batching kann jedoch die Latenz für einzelne Elemente, die in der Warteschlange warten, tatsächlich erhöhen.

Die Optimierung auf das eine geht oft zulasten des anderen. Zum Beispiel priorisieren Edge AI-Anwendungen in der Regel die Latenz, um sofortiges Feedback zu gewährleisten, während cloudbasierte Data Mining-Aufgaben möglicherweise den Durchsatz priorisieren, um massive Datensätze effizient zu handhaben.

Link to this sectionOptimierungsstrategien#

Entwickler setzen verschiedene Strategien ein, um die Latenz zu minimieren. Das Exportieren von Modellen in optimierte Formate wie ONNX oder OpenVINO kann auf Standard-CPUs erhebliche Geschwindigkeitsverbesserungen erzielen. Für mobile Deployments sorgt die Konvertierung von Modellen in TFLite oder CoreML für einen effizienten Betrieb auf iOS- und Android-Geräten. Darüber hinaus stellt die Verwendung leichtgewichtiger Architekturen wie MobileNet oder das neueste Ultralytics YOLO26 sicher, dass das grundlegende Modell bereits durch sein Design effizient ist. Nutzer können zudem die Ultralytics Platform nutzen, um Modelle nahtlos in diese optimierten Formate zu deployen, ohne komplexe manuelle Konfigurationen vornehmen zu müssen.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens