Optimieren Sie die KI-Leistung mit geringer Inferenzlatenz. Lernen Sie Schlüsselfaktoren, reale Anwendungen und Techniken zur Verbesserung von Echtzeit-Reaktionen kennen.
Die Inferenzlatenz ist die Zeit, die ein trainiertes Modell für maschinelles Lernen (ML) benötigt, um eine Eingabe zu erhalten und eine entsprechende Ausgabe oder Vorhersage zu liefern. Sie wird in Millisekunden (ms) gemessen und ist eine kritische Leistungskennzahl im Bereich der künstlichen Intelligenz (KI), insbesondere für Anwendungen, die sofortiges Feedback erfordern. Eine niedrige Latenzzeit ist entscheidend für die Entwicklung reaktionsschneller und effektiver KI-Systeme, die in dynamischen, realen Umgebungen arbeiten können.
Eine niedrige Latenzzeit ist der Schlüssel zur Ermöglichung von Echtzeit-Inferenzen, bei denen Vorhersagen innerhalb eines engen Zeitrahmens geliefert werden müssen, um nützlich zu sein. In vielen Szenarien kann eine Verzögerung von nur wenigen Millisekunden eine Anwendung ineffektiv oder unsicher machen. So muss beispielsweise ein selbstfahrendes Auto Fußgänger und Hindernisse sofort erkennen, um Kollisionen zu vermeiden, während ein interaktiver KI-Assistent schnell auf Benutzeranfragen reagieren muss, um einen natürlichen Gesprächsfluss zu gewährleisten. Niedrige Latenzzeiten sind eine zentrale Herausforderung bei der Bereitstellung von Modellen und wirken sich direkt auf die Benutzerfreundlichkeit und die Durchführbarkeit von Anwendungen aus.
Die Inferenzlatenz ist ein entscheidender Faktor für den Erfolg vieler Computer-Vision-Anwendungen. Hier sind zwei Beispiele:
Mehrere Faktoren beeinflussen, wie schnell ein Modell Schlussfolgerungen ziehen kann:
Obwohl sie oft zusammen diskutiert werden, messen Inferenzlatenz und Durchsatz unterschiedliche Aspekte der Leistung.
Eine Optimierung für das eine kann sich negativ auf das andere auswirken. So verbessert eine Erhöhung der Stapelgröße in der Regel den Durchsatz, erhöht aber die Zeit, die benötigt wird, um ein Ergebnis für eine einzelne Eingabe in diesem Stapel zu erhalten, und verschlechtert damit die Latenzzeit. Das Verständnis dieses Kompromisses zwischen Latenz und Durchsatz ist von grundlegender Bedeutung für die Entwicklung von KI-Systemen, die bestimmte betriebliche Anforderungen erfüllen.
Die Verwaltung der Inferenzlatenz ist ein Balanceakt zwischen Modellgenauigkeit, Rechenkosten und Reaktionszeit. Das ultimative Ziel ist die Auswahl eines Modells und einer Bereitstellungsstrategie, die den Leistungsanforderungen der Anwendung entspricht. Dieser Prozess kann mit Plattformen wie Ultralytics HUB verwaltet werden.