Steigern Sie die KI-Effizienz mit promptem Caching! Erfahren Sie, wie Sie mit dieser leistungsstarken Technik Latenzzeiten reduzieren, Kosten senken und KI-Anwendungen skalieren können.
Die Zwischenspeicherung von Eingabeaufforderungen ist eine Optimierungstechnik, die vor allem bei großen Sprachmodellen (Large Language Models, LLMs) zur Beschleunigung des Inferenzprozesses eingesetzt wird. Dabei werden die Zwischenergebnisse der Berechnungen, insbesondere die Schlüssel-Wert-Zustände (KV) im Aufmerksamkeitsmechanismus, eines anfänglichen Teils einer Eingabeaufforderung gespeichert. Wenn eine neue Eingabeaufforderung denselben Anfang (Präfix) hat, kann das Modell diese zwischengespeicherten Zustände wiederverwenden, anstatt sie neu zu berechnen, was die Latenzzeit und die für die Generierung einer Antwort erforderliche Rechenlast erheblich reduziert. Dies ist besonders effektiv bei Anwendungen mit konversationeller KI oder sich wiederholenden Abfragen.
Wenn ein LLM eine Textsequenz, z. B. einen Satz oder einen Absatz, verarbeitet, berechnet es die Aufmerksamkeitswerte für jedes Token in seinem Kontextfenster. Dies ist ein rechenintensiver Teil des Prozesses, insbesondere bei langen Prompts. Der Kerngedanke hinter der Zwischenspeicherung von Prompts, oft auch KV-Caching genannt, besteht darin, redundante Arbeit zu vermeiden. Wenn das Modell die Aufforderung "Übersetze den folgenden englischen Text ins Französische:" bereits verarbeitet hat, speichert es den daraus resultierenden internen Zustand. Wenn es später die Aufforderung "Übersetze den folgenden englischen Text ins Französische: 'Hello, world!'" erhält, kann es den zwischengespeicherten Zustand für die ursprüngliche Phrase laden und die Berechnung nur für den neuen Teil, "'Hello, world!'", beginnen. Dadurch wird der Prozess der Texterzeugung bei nachfolgenden, ähnlichen Anfragen erheblich beschleunigt. Systeme wie vLLM sind darauf ausgelegt, diesen Prozess effizient zu verwalten und den Gesamtdurchsatz zu verbessern.
Die Zwischenspeicherung von Eingabeaufforderungen ist eine entscheidende Optimierung für viele reale KI-Systeme, die das Benutzererlebnis durch schnellere Antworten verbessert.
Es ist hilfreich, das Prompt-Caching von anderen verwandten Techniken zu unterscheiden:
Während die Zwischenspeicherung von Eingabeaufforderungen vorwiegend mit LLMs in Verbindung gebracht wird, könnte das zugrundeliegende Prinzip der Zwischenspeicherung von Berechnungen auch in komplexen multimodalen Modellen Anwendung finden, bei denen Textaufforderungen mit anderen Modalitäten interagieren. Bei Standardaufgaben der Computer Vision (CV) wie der Objekterkennung mit Modellen wie Ultralytics YOLO ist dies jedoch weniger üblich. Plattformen wie Ultralytics HUB rationalisieren die Bereitstellung und Verwaltung von KI-Modellen, wobei Optimierungen wie Caching für die Leistung in Produktionsumgebungen entscheidend sein können.