Glossar

Prompt-Caching

Steigern Sie die Effizienz von KI mit Prompt-Caching! Erfahren Sie, wie Sie mit dieser leistungsstarken Technik die Latenz reduzieren, Kosten senken und KI-Anwendungen skalieren können.

Die Zwischenspeicherung von Eingabeaufforderungen ist eine Optimierungstechnik, die vor allem bei großen Sprachmodellen (LLMs) zur Beschleunigung des Inferenzprozesses eingesetzt wird. Dabei werden die Zwischenergebnisse eines anfänglichen Teils einer Eingabeaufforderung gespeichert. Wenn eine neue Eingabeaufforderung mit demselben Anfang, dem so genannten Präfix, beginnt, kann das Modell diese zwischengespeicherten Zustände wiederverwenden, anstatt sie neu zu berechnen. Diese Methode reduziert die Latenzzeit und die Rechenlast, die für die Generierung einer Antwort erforderlich ist, beträchtlich, was sie besonders effektiv für Anwendungen macht, bei denen es um konversationelle KI oder sich wiederholende Abfragen geht. Durch die Vermeidung redundanter Berechnungen verbessert das Prompt-Caching den Durchsatz und senkt die Betriebskosten.

Wie Prompt-Caching funktioniert

Wenn ein LLM eine Textsequenz verarbeitet, berechnet er interne Zustände für jedes Token innerhalb seines Kontextfensters. Dies ist ein rechenintensiver Teil des Prozesses, insbesondere bei langen Prompts. Die Kernidee hinter dem Prompt-Caching, oft auch KV-Caching genannt, besteht darin, diese internen Zustände zu speichern, insbesondere die Schlüssel-Wert-Paare (KV) im Aufmerksamkeitsmechanismus. Wenn ein Modell beispielsweise das Präfix "Übersetze den folgenden englischen Text ins Französische:" verarbeitet, speichert es den resultierenden Zustand. Wenn es später eine vollständige Aufforderung wie "Übersetze den folgenden englischen Text ins Französische: 'Hello, world!'" erhält, kann es den zwischengespeicherten Zustand für die ursprüngliche Phrase laden und die Berechnung nur für den neuen Teil beginnen. Dadurch wird der Prozess der Texterstellung für nachfolgende, ähnliche Anfragen wesentlich beschleunigt. Systeme wie das Open-Source-Projekt vLLM sind darauf ausgelegt, diesen Prozess effizient zu verwalten und den Gesamtdurchsatz der Inferenzmaschine zu verbessern.

Anwendungsfälle in der Praxis

Die Zwischenspeicherung von Eingabeaufforderungen ist eine wichtige Optimierung für viele reale Systeme der künstlichen Intelligenz (KI ), die die Benutzererfahrung durch schnellere Antworten verbessert.

Interaktive Chatbots und virtuelle Assistenten: In einer Chatbot-Konversation baut jede Runde auf dem vorherigen Austausch auf. Das Zwischenspeichern des Gesprächsverlaufs als Präfix ermöglicht es dem Modell, die nächste Antwort zu generieren, ohne den gesamten Dialog neu zu verarbeiten. Dies führt zu einer viel flüssigeren und reaktionsschnelleren Interaktion, die für die Leistung moderner virtueller Assistenten von grundlegender Bedeutung ist und das Nutzererlebnis in Plattformen wie Poe verbessert.
Codegenerierung und -vervollständigung: KI-gestützte Codierungsassistenten wie GitHub Copilot verwenden häufig Caching. Der vorhandene Code in einer Datei dient als eine lange Eingabeaufforderung. Durch das Zwischenspeichern der KV-Zustände dieses Codes kann das Modell schnell Vorschläge für die nächste Zeile generieren oder eine Funktion vervollständigen, ohne die gesamte Datei jedes Mal neu analysieren zu müssen, wenn ein Zeichen eingegeben wird, so dass eine Inferenz in Echtzeit möglich ist. Diese Technik ist ein wesentlicher Bestandteil der Funktionsweise von KI-Code-Assistenten.

Prompt-Caching vs. verwandte Konzepte

Es ist hilfreich, das Prompt-Caching von anderen verwandten Techniken des maschinellen Lernens (ML) zu unterscheiden:

Schnelles Engineering: Konzentriert sich auf die Entwicklung effektiver Prompts, um einem KI-Modell die gewünschten Antworten zu entlocken. Das Caching optimiert die Ausführung dieser Prompts, unabhängig davon, wie gut sie entwickelt sind.
Prompt-Anreicherung: Die Eingabeaufforderung eines Benutzers wird um Kontext oder klärende Informationen ergänzt , bevor sie an das Modell gesendet wird. Die Zwischenspeicherung erfolgt während der Verarbeitung des (potenziell angereicherten) Prompts durch das Modell.
Promptes Tuning und LoRA: Hierbei handelt es sich um parameter-effiziente Feinabstimmungsmethoden (PEFT), die das Verhalten eines Modells durch das Training kleiner zusätzlicher Parametersätze anpassen. Caching ist eine Optimierung während der Inferenzzeit, die die Modellgewichte selbst nicht verändert.
Retrieval-Augmented Generation (RAG): Erweitert Prompts, indem relevante Informationen aus externen Wissensdatenbanken abgerufen und dem Kontext des Prompts hinzugefügt werden. Während RAG die Eingabe modifiziert, kann die Verarbeitung des kombinierten Prompts weiterhin durch Caching erfolgen.
Standard-Output-Caching: Beim herkömmlichen Web-Caching, wie es von einem Content Delivery Network (CDN) verwaltet wird, wird die endgültige Ausgabe einer Anforderung gespeichert. Das Prompt-Caching speichert Zwischenstände in der Verarbeitungspipeline des Modells und ermöglicht so eine flexiblere Wiederverwendung.

Während die Zwischenspeicherung von Eingabeaufforderungen vorwiegend mit LLMs in Verbindung gebracht wird, kann das zugrundeliegende Prinzip der Zwischenspeicherung von Berechnungen auch bei komplexen multimodalen Modellen angewendet werden, bei denen Textaufforderungen mit anderen Modalitäten interagieren. Bei Standardaufgaben der Computer Vision (CV) wie der Objekterkennung mit Modellen wie Ultralytics YOLO11 ist dies jedoch weniger üblich. Plattformen für die Modellbereitstellung sind der Punkt, an dem Optimierungen wie Caching für die Leistung in Produktionsumgebungen entscheidend werden, wie in den Ressourcen von Anbietern wie Anyscale und NVIDIA beschrieben.

Prompt-Caching

Trainieren Sie Ultralytics YOLO-Modelle, um Arbeitsabläufe in allen Branchen zu rationalisieren

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Wie Prompt-Caching funktioniert

Anwendungsfälle in der Praxis

Prompt-Caching vs. verwandte Konzepte

Mehr in dieser Kategorie lesen

Einsatz von Ultralytics YOLO-Modellen unter Verwendung der ExecuTorch-Integration

Die wichtigsten Highlights von Ultralytics auf der PyTorch Conference 2025

Selbstüberwachtes Lernen zur Entrauschung von Bildern

Treten Sie der Ultralytics-Community bei