Prompt Caching
Entdecke, wie Prompt Caching generative KI durch Reduzierung von Latenz und Kosten optimiert. Lerne seine Rolle in LLMs und Echtzeit-Computer-Vision mit Ultralytics YOLO26 kennen.
Prompt Caching ist eine fortschrittliche Optimierungsstrategie, die hauptsächlich im Bereich der generative AI eingesetzt wird, um Kosten erheblich zu senken und die Antwortzeiten während der Inferenz zu verbessern. Im Bereich der Large Language Models (LLMs) erfordert die Verarbeitung von Text das Konvertieren von Eingaben in numerische Sequenzen, die als tokens bezeichnet werden. Oft bleibt ein großer Teil der Eingabedaten – wie eine detaillierte Systemanweisung, ein langes Rechtsdokument oder eine Codebasis – über viele verschiedene Benutzeranfragen hinweg statisch. Anstatt diese unveränderlichen Abschnitte für jede neue Anfrage erneut zu verarbeiten, speichert Prompt Caching die vorberechneten mathematischen Zustände (oft als Key-Value-Cache bezeichnet) im Arbeitsspeicher. Dies ermöglicht es der inference engine, redundante Berechnungen zu überspringen und sich nur auf die neuen, dynamischen Teile des Prompts des Benutzers zu konzentrieren.
Link to this sectionMechanismen und Vorteile#
Die grundlegende Mechanik von Prompt Caching beruht auf der Architektur von Transformers, die Daten sequenziell verarbeiten. Durch das Identifizieren des sich wiederholenden Präfixes eines Prompts kann das System die entsprechenden Zustände des attention mechanism direkt aus dem Hochgeschwindigkeitsspeicher laden.
- Reduzierte Latenz: Caching senkt die inference latency drastisch, insbesondere die Zeit bis zum ersten Token (TTFT). Dies stellt sicher, dass Echtzeitanwendungen wie interaktive chatbots für den Benutzer sofort reagieren.
- Kosteneffizienz: Da Anbieter von Cloud Computing oft basierend auf der Rechenzeit oder der Token-Verarbeitung abrechnen, führt das Überspringen des hohen Rechenaufwands für statische Kontexte zu erheblichen Einsparungen.
- Erhöhter Durchsatz: Durch die Entlastung von GPU-Ressourcen können Server ein höheres Volumen an gleichzeitigen Anfragen verarbeiten, wodurch die gesamte Infrastruktur für das model serving skalierbarer wird.
Link to this sectionPraxisanwendungen#
Prompt Caching transformiert Branchen, die auf umfangreichen Datenkontext angewiesen sind.
-
Coding-Assistenten: In der Softwareentwicklung nutzen Tools wie GitHub Copilot eine riesige Menge an Kontext aus den geöffneten Dateien und der Repository-Struktur des Benutzers. Durch das Caching der embeddings der Codebasis kann das Modell in Echtzeit Vorschläge zur Code-Vervollständigung liefern, ohne bei jedem Tastendruck die gesamte Projektdateistruktur erneut analysieren zu müssen.
-
Rechtliche und medizinische Analyse: Fachleute fragen oft AI Agents in Bezug auf massive statische Dokumente ab, wie z. B. Archive für Rechtsprechung oder Patientenakten. Unter Verwendung von Retrieval-Augmented Generation (RAG) ruft das System relevante Textabschnitte ab. Prompt Caching stellt sicher, dass der grundlegende Kontext dieser abgerufenen Dokumente für Folgefragen nicht neu berechnet werden muss, was den Workflow des Question Answering optimiert.
Link to this sectionRelevanz in der Computer Vision#
Obwohl das Konzept des Cachings traditionell mit Text assoziiert wird, ist es bei der multimodalen Computer Vision (CV) von entscheidender Bedeutung. Modelle wie YOLO-World ermöglichen es Benutzern, Objekte mithilfe von Open-Vocabulary-Textprompts zu erkennen. Wenn ein Benutzer eine Liste von Klassen definiert (z. B. "person, backpack, car"), berechnet das Modell Texteeinbettungen für diese Klassen. Das Caching dieser Einbettungen verhindert, dass das Modell die Textprompts für jeden einzelnen Videoframe neu kodieren muss, was eine schnelle Real-Time Inference ermöglicht.
Link to this sectionUnterscheidung verwandter Begriffe#
- Vs. Prompt Engineering: Prompt Engineering umfasst den menschlichen Aufwand, die optimale Texteingabe zu gestalten, um das Modell zu leiten. Prompt Caching ist eine rechnerische Backend-Optimierung, die die Verarbeitung dieses Textes durch die Maschine speichert.
- Vs. Prompt Tuning: Prompt Tuning ist eine Technik des Transfer Learning, die spezifische Model Weights (Soft Prompts) aktualisiert, um ein Modell an eine Aufgabe anzupassen. Caching ändert die Parameter des Modells nicht; es speichert lediglich Aktivierungszustände während der Laufzeit.
Link to this sectionCode-Beispiel: Caching von Texteeinbettungen in der Vision#
Das folgende Python-Snippet demonstriert das Konzept des "Cachings" eines Prompts im Vision-Kontext unter Verwendung des ultralytics-Pakets. Durch das einmalige Festlegen der Klassen in einem YOLO-World-Modell werden die Texteeinbettungen berechnet und gespeichert (persisiert), was es dem Modell ermöglicht, effizient Vorhersagen für mehrere Bilder zu treffen, ohne die Textbeschreibung erneut verarbeiten zu müssen.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")Für die Verwaltung von Datensätzen und die Bereitstellung dieser optimierten Modelle bietet die Ultralytics Platform eine umfassende Umgebung zum Annotieren von Daten, zum Trainieren von State-of-the-Art-Modellen wie YOLO26 und zum Überwachen der Bereitstellungsleistung über verschiedene Edge AI-Geräte hinweg.






