Steigern Sie die Effizienz von KI mit Prompt-Caching! Erfahren Sie, wie Sie mit dieser leistungsstarken Technik die Latenz reduzieren, Kosten senken und KI-Anwendungen skalieren können.
Prompt-Caching ist eine spezielle Optimierungstechnik, die bei der Bereitstellung von Large Language Models (LLMs) verwendet wird, um Inferenzlatenz und Rechenkosten deutlich zu Rechenkosten zu reduzieren. Im Kontext der generativen KI, beinhaltet die Verarbeitung eines Prompts die Umwandlung von Text in numerische Repräsentationen und die Berechnung der Beziehungen zwischen jedem Token unter Verwendung eines Aufmerksamkeitsmechanismus. Wenn ein wesentlicher Teil eines Prompts - z. B. eine lange Systemanweisung oder eine Reihe von Beispielen - über mehrere Anfragen hinweg statisch bleibt, ermöglicht das Prompt Caching ermöglicht es dem System, die mathematischen Zwischenzustände (insbesondere Schlüssel-Wert-Paare) dieses statischen Textes zu speichern. Textes speichern. Anstatt diese Zustände für jede neue Anfrage neu zu berechnen, ruft die Inferenzmaschine sie aus dem Speicher ab, Dadurch kann das Modell seine Verarbeitungsleistung ausschließlich auf die neuen, dynamischen Teile der Eingabe konzentrieren.
Der zentrale Mechanismus für die Zwischenspeicherung von Eingabeaufforderungen beruht auf der effizienten Verwaltung des Kontextfenster effizient zu verwalten. Wenn ein LLM Eingabe verarbeitet, erzeugt er einen "KV-Cache" (Key-Value Cache), der das Verständnis des Modells für den Text bis zu diesem Zeitpunkt diesem Punkt. Beim Prompt-Caching wird das erste segment des Prompts (das Präfix) als wiederverwendbares Asset behandelt.
Promptes Caching verändert die Erstellung und Skalierung von Anwendungen für maschinelles Lernen (ML), insbesondere solche mit umfangreicher Textverarbeitung.
Die Zwischenspeicherung von Prompts ist zwar eine interne Funktion des LLM-Inferenzservers, aber ein Verständnis der Datenstruktur hilft, das Konzept zu verstehen. Der "Cache" speichert im Wesentlichen Tensoren (mehrdimensionale Arrays), die die Aufmerksamkeitszustände darstellen.
Das folgende Python verwendet torch zeigt die Form und das Konzept eines tensor,
der bei der prompten Zwischenspeicherung gespeichert und wiederverwendet wird:
import torch
# Simulate a KV Cache tensor for a transformer model
# Shape: (Batch_Size, Num_Heads, Sequence_Length, Head_Dim)
batch_size, num_heads, seq_len, head_dim = 1, 32, 1024, 128
# Create a random tensor representing the pre-computed state of a long prompt
kv_cache_state = torch.randn(batch_size, num_heads, seq_len, head_dim)
print(f"Cached state shape: {kv_cache_state.shape}")
print(f"Number of cached parameters: {kv_cache_state.numel()}")
# In practice, this tensor is passed to the model's forward() method
# to skip processing the first 1024 tokens.
Es ist wichtig, das Prompt-Caching von anderen Begriffen aus dem Ultralytics zu unterscheiden, um die richtige Optimierungsstrategie anzuwenden.
Während die Zwischenspeicherung von Eingabeaufforderungen in der Verarbeitung natürlicher Sprache (NLP), sind die Effizienzprinzipien universell. In Computer Vision (CV), Modelle wie YOLO11 architektonisch für Geschwindigkeit optimiert, um sicherzustellen dass Objekterkennungsaufgaben hohe Bildraten erreichen Erkennungsaufgaben hohe Bildwiederholraten erreichen, ohne dass die gleiche Art der Zwischenspeicherung von Zuständen wie bei autoregressiven Sprachmodellen erforderlich ist. Da jedoch multimodale Modelle entwickelt werden, die Video und Text Text zu verarbeiten, wird die Zwischenspeicherung von visuellen Token zu einem aufstrebenden Forschungsgebiet, das in Artikeln auf arXiv.