Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Prompt-Caching

Entdecken Sie, wie Prompt Caching generative KI durch Reduzierung von Latenz und Kosten optimiert. Erfahren Sie, wie Sie LLM-Inferenz- und Bildverarbeitungsmodelle wie YOLO26 beschleunigen können.

Prompt-Caching ist eine fortschrittliche Optimierungsstrategie, die vor allem in generativer KI , um die Kosten erheblich zu senken und die Reaktionszeiten während der Inferenz zu verbessern. Im Bereich der großen Sprachmodellen (LLMs)erfordert die Verarbeitung von Text die Umwandlung von Eingaben in numerische Sequenzen, die als Tokens. Oft bleibt ein großer Teil der Eingabedaten – wie detaillierte Systemanweisungen, lange Rechtsdokumente oder eine Codebasis – über viele verschiedene Benutzeranfragen hinweg unverändert. Anstatt diese unveränderlichen Abschnitte bei jeder neuen Anfrage erneut zu verarbeiten, speichert das Prompt-Caching die vorberechneten mathematischen Zustände (oft als Key-Value-Cache bezeichnet) im Speicher. Dies ermöglicht der Inferenz-Engine redundante Berechnungen überspringen und die Rechenleistung nur auf die neuen, dynamischen Teile der Benutzeranweisung konzentrieren.

Mechanismen und Vorteile

Die grundlegende Funktionsweise des Prompt-Caching basiert auf der Architektur von Transformatoren, die Daten sequenziell verarbeiten. Durch die Identifizierung des sich wiederholenden Präfixes eines Prompts kann das System den entsprechenden Aufmerksamkeitsmechanismus Zustände direkt aus dem Hochgeschwindigkeitsspeicher laden.

  • Reduzierte Latenz: Caching senkt die Inferenzlatenz, insbesondere die Zeit bis zum ersten Token (TTFT). Dadurch wird sichergestellt, dass Echtzeitanwendungen wie interaktive Chatbots, für den Benutzer sofort reagieren.
  • Kosteneffizienz: Da Cloud Computing Anbieter häufig auf Basis der Rechenzeit oder der Token-Verarbeitung abrechnen, führt das Wegfallen der aufwändigen statischen Kontexte zu erheblichen Einsparungen.
  • Erhöhter Durchsatz: Durch die Freigabe von GPU Ressourcen freigesetzt werden, können Server ein höheres Volumen an gleichzeitigen Anfragen verarbeiten, wodurch das gesamte Modellbereitstellungs-Infrastruktur Infrastruktur skalierbarer. skalierbarer.

Anwendungsfälle in der Praxis

Prompt-Caching verändert Branchen, die auf umfangreiche Datenkontexte angewiesen sind.

  1. Coding Assistants: In der Softwareentwicklung sind Tools wie GitHub Copilot nutzen riesige Mengen an Kontext aus den geöffneten Dateien und der Repository-Struktur des Benutzers. Durch das Zwischenspeichern der Einbettungen der Codebasis zwischenspeichern, kann das Modell in Echtzeit Vorschläge zur Code-Vervollständigung liefern, ohne die gesamte Projektdateistruktur bei jedem Tastenanschlag neu analysieren zu müssen.
  2. Rechtliche und medizinische Analyse: Fachleute stellen häufig Fragen KI-Agenten mit umfangreichen statischen Dokumenten wie Rechtsprechungsarchiven oder Patientenakten ab. Mithilfe von Retrieval-Augmented Generation (RAG)ruft das System relevante Textabschnitte ab. Durch Prompt-Caching muss der grundlegende Kontext dieser abgerufenen Dokumente für Folgefragen nicht neu berechnet werden, was die Workflow der Beantwortung von Fragen .

Relevanz in der Computer Vision

Obwohl das Konzept des Caching traditionell mit Text in Verbindung gebracht wird, ist es für multimodale Computer Vision (CV). Modelle wie YOLO ermöglichen es Benutzern, detect mithilfe von Textbefehlen mit offenem Vokabular zu detect . Wenn ein Benutzer eine Liste von Klassen definiert (z. B. „Person, Rucksack, Auto“), berechnet das Modell Text-Embeddings für diese Klassen. Durch das Caching dieser Embeddings muss das Modell die Textbefehle nicht für jedes einzelne Videobild neu codieren, was eine schnelle Echtzeit-Inferenz.

Unterscheidung verwandter Begriffe

  • Vs. Prompt Engineering: Prompt Engineering umfasst die menschliche Arbeit, die optimale Texteingabe zu entwerfen, um das Modell anzuleiten. Prompt Caching ist eine Backend-Berechnungsoptimierung, die die Verarbeitung dieses Textes durch die Maschine speichert.
  • Vs. Prompt-Tuning: Prompt-Tuning ist ein Transfer-Lernverfahren Technik , die bestimmte Modellgewichte (Soft Prompts) aktualisiert, um ein Modell an eine Aufgabe anzupassen. Caching verändert die Parameter des Modells nicht, sondern speichert lediglich Aktivierungszustände während der Laufzeit.

Code-Beispiel: Zwischenspeichern von Text-Embeddings in Vision

Die folgenden Python Der Ausschnitt veranschaulicht das Konzept des „Caching” einer Eingabeaufforderung in einem Vision-Kontext unter Verwendung der ultralytics Paket. Durch einmaliges Festlegen der Klassen in einem YOLO Modell werden die Text-Embeddings berechnet und gespeichert (persistiert), sodass das Modell effiziente Vorhersagen für mehrere Bilder treffen kann, ohne die Textbeschreibung erneut verarbeiten zu müssen.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

Für die Verwaltung von Datensätzen und die Bereitstellung dieser optimierten Modelle wird die Ultralytics eine umfassende Umgebung für die Annotation von Daten und das Training modernster Modelle wie YOLO26und die Überwachung der Bereitstellungsleistung in verschiedenen Edge-KI-Geräten Geräten.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten