Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Prompt-Caching

Steigern Sie die Effizienz von KI mit Prompt-Caching! Erfahren Sie, wie Sie mit dieser leistungsstarken Technik die Latenz reduzieren, Kosten senken und KI-Anwendungen skalieren können.

Prompt-Caching ist eine spezielle Optimierungstechnik, die bei der Bereitstellung von Large Language Models (LLMs) verwendet wird, um Inferenzlatenz und Rechenkosten deutlich zu Rechenkosten zu reduzieren. Im Kontext der generativen KI, beinhaltet die Verarbeitung eines Prompts die Umwandlung von Text in numerische Repräsentationen und die Berechnung der Beziehungen zwischen jedem Token unter Verwendung eines Aufmerksamkeitsmechanismus. Wenn ein wesentlicher Teil eines Prompts - z. B. eine lange Systemanweisung oder eine Reihe von Beispielen - über mehrere Anfragen hinweg statisch bleibt, ermöglicht das Prompt Caching ermöglicht es dem System, die mathematischen Zwischenzustände (insbesondere Schlüssel-Wert-Paare) dieses statischen Textes zu speichern. Textes speichern. Anstatt diese Zustände für jede neue Anfrage neu zu berechnen, ruft die Inferenzmaschine sie aus dem Speicher ab, Dadurch kann das Modell seine Verarbeitungsleistung ausschließlich auf die neuen, dynamischen Teile der Eingabe konzentrieren.

Mechanismen und Vorteile

Der zentrale Mechanismus für die Zwischenspeicherung von Eingabeaufforderungen beruht auf der effizienten Verwaltung des Kontextfenster effizient zu verwalten. Wenn ein LLM Eingabe verarbeitet, erzeugt er einen "KV-Cache" (Key-Value Cache), der das Verständnis des Modells für den Text bis zu diesem Zeitpunkt diesem Punkt. Beim Prompt-Caching wird das erste segment des Prompts (das Präfix) als wiederverwendbares Asset behandelt.

  • Verringerung der Latenzzeit: Durch das Überspringen der Berechnung für das zwischengespeicherte Präfix wird die Zeit bis zum ersten Token (TTFT) drastisch verkürzt, was zu schnelleren Antworten in Inferenzszenarien in Echtzeit.
  • Kosteneffizienz: Seit Grafikverarbeitungseinheiten (GPUs) weniger Zeit mit der Verarbeitung redundanter Token verbringen, sinkt der Gesamtbedarf an Rechenressourcen pro Anfrage, wodurch die Betriebskosten für die Ausführung von Dienste für künstliche Intelligenz (AI).
  • Höherer Durchsatz: Die Systeme können ein höheres Volumen an gleichzeitigen Anfragen bewältigen, da die Rechenaufwand für jede einzelne Anfrage minimiert wird.

Anwendungsfälle in der Praxis

Promptes Caching verändert die Erstellung und Skalierung von Anwendungen für maschinelles Lernen (ML), insbesondere solche mit umfangreicher Textverarbeitung.

  1. Kontextabhängige Kodierassistenten: In Tools, die eine Code-Vervollständigung bieten, dient oft der gesamte Inhalt der aktuellen Datei und der referenzierten Bibliotheken oft als Kontext für die Eingabeaufforderung. Dieses "Präfix" kann Tausende von Token lang sein. Durch die Verwendung von Prompt-Caching kann der Assistent den Zustand der Datei zwischenspeichern. Während der Entwickler tippt (Hinzufügen (Hinzufügen neuer Token), verarbeitet das Modell nur die neuen Zeichen, anstatt die gesamte Dateistruktur erneut zu lesen. Antwortzeiten von unter einer Sekunde, wie sie in modernen integrierten Entwicklungsumgebungen (IDEs).
  2. Dokumentenanalyse und Fragen und Antworten: Nehmen wir ein System, das Fragen zu einem 50-seitigen PDF-Handbuch beantworten soll Handbuch beantworten soll. Mit Retrieval-Augmented Generation (RAG) wird der Text des Handbuchs in das Modell eingespeist. Ohne Zwischenspeicherung muss das Modell jedes Mal, wenn ein Benutzer eine Frage stellt das gesamte Handbuch und die Frage erneut verarbeiten. Mit der Zwischenspeicherung von Fragen wird die schwere Rechenarbeit des Verstehens des Handbuchs nur einmal durchgeführt und gespeichert. Nachfolgende Fragen werden an diesen zwischengespeicherten Zustand angehängt, wodurch die Beantwortung von Fragen flüssig und effizient.

Technisches Umsetzungskonzept

Die Zwischenspeicherung von Prompts ist zwar eine interne Funktion des LLM-Inferenzservers, aber ein Verständnis der Datenstruktur hilft, das Konzept zu verstehen. Der "Cache" speichert im Wesentlichen Tensoren (mehrdimensionale Arrays), die die Aufmerksamkeitszustände darstellen.

Das folgende Python verwendet torch zeigt die Form und das Konzept eines tensor, der bei der prompten Zwischenspeicherung gespeichert und wiederverwendet wird:

import torch

# Simulate a KV Cache tensor for a transformer model
# Shape: (Batch_Size, Num_Heads, Sequence_Length, Head_Dim)
batch_size, num_heads, seq_len, head_dim = 1, 32, 1024, 128

# Create a random tensor representing the pre-computed state of a long prompt
kv_cache_state = torch.randn(batch_size, num_heads, seq_len, head_dim)

print(f"Cached state shape: {kv_cache_state.shape}")
print(f"Number of cached parameters: {kv_cache_state.numel()}")
# In practice, this tensor is passed to the model's forward() method
# to skip processing the first 1024 tokens.

Unterscheidung von verwandten Konzepten

Es ist wichtig, das Prompt-Caching von anderen Begriffen aus dem Ultralytics zu unterscheiden, um die richtige Optimierungsstrategie anzuwenden.

  • Vs. Eingabeaufforderungstechnik: Bei der Aufforderungserstellung geht es darum, Inhalt und Struktur des eingegebenen Textes so zu gestalten, dass die beste Antwort zu erhalten. Prompt Caching konzentriert sich auf die Optimierung der rechnerischen Ausführung dieser Eingabe.
  • Vs. Semantische Suche: Die semantische Suche (die häufig bei Caching-Ausgaben verwendet wird) sucht nach ähnlichen Abfragen, um eine vorformulierte Antwort. Beim Prompt-Caching wird das Modell weiterhin ausgeführt, um eine eindeutige Antwort zu generieren; es wird lediglich das Lesen des Lesen des Eingabekontexts.
  • Vs. Feinabstimmung: Die Feinabstimmung verändert permanent die Modellgewichte, um neue Informationen zu lernen. Aufforderung Zwischenspeicherung ändert die Gewichte des Modells nicht, sondern speichert vorübergehend die Aktivierungszustände einer bestimmten Eingabe Sitzung.
  • Vs. Modell-Quantisierung: Bei der Quantisierung wird die Genauigkeit der Modellparameter reduziert, um Speicherplatz zu sparen und die Inferenz insgesamt zu beschleunigen. Prompt-Caching ist eine Laufzeitoptimierung speziell für die Eingabedaten, die oft in Verbindung mit Quantisierung.

Während die Zwischenspeicherung von Eingabeaufforderungen in der Verarbeitung natürlicher Sprache (NLP), sind die Effizienzprinzipien universell. In Computer Vision (CV), Modelle wie YOLO11 architektonisch für Geschwindigkeit optimiert, um sicherzustellen dass Objekterkennungsaufgaben hohe Bildraten erreichen Erkennungsaufgaben hohe Bildwiederholraten erreichen, ohne dass die gleiche Art der Zwischenspeicherung von Zuständen wie bei autoregressiven Sprachmodellen erforderlich ist. Da jedoch multimodale Modelle entwickelt werden, die Video und Text Text zu verarbeiten, wird die Zwischenspeicherung von visuellen Token zu einem aufstrebenden Forschungsgebiet, das in Artikeln auf arXiv.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten