Optimieren Sie die KI-Leistung mit niedriger Inferenzlatenz. Erfahren Sie mehr über Schlüsselfaktoren, reale Anwendungen und Techniken zur Verbesserung von Echtzeitreaktionen.
Die Inferenzlatenz ist die Zeit, die ein trainiertes Machine-Learning (ML)-Modell benötigt, um eine Eingabe zu empfangen und eine entsprechende Ausgabe oder Vorhersage zurückzugeben. Sie wird in Millisekunden (ms) gemessen und ist eine kritische Leistungsmetrik im Bereich der künstlichen Intelligenz (KI), insbesondere für Anwendungen, die eine sofortige Rückmeldung erfordern. Eine niedrige Latenz ist entscheidend für die Schaffung reaktionsschneller und effektiver KI-Systeme, die in dynamischen, realen Umgebungen arbeiten können.
Eine geringe Inferenzlatenz ist der Schlüssel zur Ermöglichung von Echtzeit-Inferenz, bei der Vorhersagen innerhalb eines strengen Zeitrahmens geliefert werden müssen, um nützlich zu sein. In vielen Szenarien kann eine Verzögerung von nur wenigen Millisekunden eine Anwendung unwirksam oder unsicher machen. Beispielsweise muss ein selbstfahrendes Auto Fußgänger und Hindernisse sofort erkennen, um Kollisionen zu vermeiden, während ein interaktiver KI-Assistent schnell auf Benutzeranfragen reagieren muss, um einen natürlichen Gesprächsfluss aufrechtzuerhalten. Das Erreichen einer geringen Latenz ist eine zentrale Herausforderung beim Model Deployment und wirkt sich direkt auf die Benutzererfahrung und die Anwendungsfähigkeit aus.
Die Inferenzlatenz ist ein entscheidender Faktor für den Erfolg vieler Computer-Vision-Anwendungen. Hier sind zwei Beispiele:
Mehrere Faktoren beeinflussen, wie schnell ein Modell eine Inferenz durchführen kann:
Obwohl oft zusammen diskutiert, messen Inferenzlatenz und Durchsatz unterschiedliche Aspekte der Leistung.
Die Optimierung für das eine kann sich negativ auf das andere auswirken. Beispielsweise verbessert die Erhöhung der Batch-Größe typischerweise den Durchsatz, erhöht aber die Zeit, die benötigt wird, um ein Ergebnis für eine einzelne Eingabe in diesem Batch zu erhalten, was die Latenz verschlechtert. Das Verständnis dieses Kompromisses zwischen Latenz und Durchsatz ist grundlegend für die Entwicklung von KI-Systemen, die spezifische betriebliche Anforderungen erfüllen.
Das Management der Inferenzlatenz ist ein Balanceakt zwischen Modell-Genauigkeit, Rechenkosten und Reaktionszeit. Das ultimative Ziel ist die Auswahl eines Modells und einer Deployment-Strategie, die die Leistungsanforderungen der Anwendung erfüllt. Dieser Prozess kann mithilfe von Plattformen wie Ultralytics HUB verwaltet werden.