Steigern Sie die Effizienz von KI mit Prompt-Caching! Erfahren Sie, wie Sie mit dieser leistungsstarken Technik die Latenz reduzieren, Kosten senken und KI-Anwendungen skalieren können.
Die Zwischenspeicherung von Eingabeaufforderungen ist eine Optimierungstechnik, die vor allem bei großen Sprachmodellen (LLMs) zur Beschleunigung des Inferenzprozesses eingesetzt wird. Dabei werden die Zwischenergebnisse eines anfänglichen Teils einer Eingabeaufforderung gespeichert. Wenn eine neue Eingabeaufforderung mit demselben Anfang, dem so genannten Präfix, beginnt, kann das Modell diese zwischengespeicherten Zustände wiederverwenden, anstatt sie neu zu berechnen. Diese Methode reduziert die Latenzzeit und die Rechenlast, die für die Generierung einer Antwort erforderlich ist, beträchtlich, was sie besonders effektiv für Anwendungen macht, bei denen es um konversationelle KI oder sich wiederholende Abfragen geht. Durch die Vermeidung redundanter Berechnungen verbessert das Prompt-Caching den Durchsatz und senkt die Betriebskosten.
Wenn ein LLM eine Textsequenz verarbeitet, berechnet er interne Zustände für jedes Token innerhalb seines Kontextfensters. Dies ist ein rechenintensiver Teil des Prozesses, insbesondere bei langen Prompts. Die Kernidee hinter dem Prompt-Caching, oft auch KV-Caching genannt, besteht darin, diese internen Zustände zu speichern, insbesondere die Schlüssel-Wert-Paare (KV) im Aufmerksamkeitsmechanismus. Wenn ein Modell beispielsweise das Präfix "Übersetze den folgenden englischen Text ins Französische:" verarbeitet, speichert es den resultierenden Zustand. Wenn es später eine vollständige Aufforderung wie "Übersetze den folgenden englischen Text ins Französische: 'Hello, world!'" erhält, kann es den zwischengespeicherten Zustand für die ursprüngliche Phrase laden und die Berechnung nur für den neuen Teil beginnen. Dadurch wird der Prozess der Texterstellung für nachfolgende, ähnliche Anfragen wesentlich beschleunigt. Systeme wie das Open-Source-Projekt vLLM sind darauf ausgelegt, diesen Prozess effizient zu verwalten und den Gesamtdurchsatz der Inferenzmaschine zu verbessern.
Die Zwischenspeicherung von Eingabeaufforderungen ist eine wichtige Optimierung für viele reale Systeme der künstlichen Intelligenz (KI ), die die Benutzererfahrung durch schnellere Antworten verbessert.
Es ist hilfreich, das Prompt-Caching von anderen verwandten Techniken des maschinellen Lernens (ML) zu unterscheiden:
Während die Zwischenspeicherung von Eingabeaufforderungen vorwiegend mit LLMs in Verbindung gebracht wird, kann das zugrundeliegende Prinzip der Zwischenspeicherung von Berechnungen auch bei komplexen multimodalen Modellen angewendet werden, bei denen Textaufforderungen mit anderen Modalitäten interagieren. Bei Standardaufgaben der Computer Vision (CV) wie der Objekterkennung mit Modellen wie Ultralytics YOLO11 ist dies jedoch weniger üblich. Plattformen für die Modellbereitstellung sind der Punkt, an dem Optimierungen wie Caching für die Leistung in Produktionsumgebungen entscheidend werden, wie in den Ressourcen von Anbietern wie Anyscale und NVIDIA beschrieben.