Entdecken Sie, wie Prompt Caching generative KI durch Reduzierung von Latenz und Kosten optimiert. Erfahren Sie, wie Sie LLM-Inferenz- und Bildverarbeitungsmodelle wie YOLO26 beschleunigen können.
Prompt-Caching ist eine fortschrittliche Optimierungsstrategie, die vor allem in generativer KI , um die Kosten erheblich zu senken und die Reaktionszeiten während der Inferenz zu verbessern. Im Bereich der großen Sprachmodellen (LLMs)erfordert die Verarbeitung von Text die Umwandlung von Eingaben in numerische Sequenzen, die als Tokens. Oft bleibt ein großer Teil der Eingabedaten – wie detaillierte Systemanweisungen, lange Rechtsdokumente oder eine Codebasis – über viele verschiedene Benutzeranfragen hinweg unverändert. Anstatt diese unveränderlichen Abschnitte bei jeder neuen Anfrage erneut zu verarbeiten, speichert das Prompt-Caching die vorberechneten mathematischen Zustände (oft als Key-Value-Cache bezeichnet) im Speicher. Dies ermöglicht der Inferenz-Engine redundante Berechnungen überspringen und die Rechenleistung nur auf die neuen, dynamischen Teile der Benutzeranweisung konzentrieren.
Die grundlegende Funktionsweise des Prompt-Caching basiert auf der Architektur von Transformatoren, die Daten sequenziell verarbeiten. Durch die Identifizierung des sich wiederholenden Präfixes eines Prompts kann das System den entsprechenden Aufmerksamkeitsmechanismus Zustände direkt aus dem Hochgeschwindigkeitsspeicher laden.
Prompt-Caching verändert Branchen, die auf umfangreiche Datenkontexte angewiesen sind.
Obwohl das Konzept des Caching traditionell mit Text in Verbindung gebracht wird, ist es für multimodale Computer Vision (CV). Modelle wie YOLO ermöglichen es Benutzern, detect mithilfe von Textbefehlen mit offenem Vokabular zu detect . Wenn ein Benutzer eine Liste von Klassen definiert (z. B. „Person, Rucksack, Auto“), berechnet das Modell Text-Embeddings für diese Klassen. Durch das Caching dieser Embeddings muss das Modell die Textbefehle nicht für jedes einzelne Videobild neu codieren, was eine schnelle Echtzeit-Inferenz.
Die folgenden Python Der Ausschnitt veranschaulicht das Konzept des
„Caching” einer Eingabeaufforderung in einem Vision-Kontext unter Verwendung der ultralytics Paket. Durch einmaliges Festlegen der Klassen
in einem YOLO Modell werden die Text-Embeddings berechnet und gespeichert (persistiert), sodass das Modell effiziente Vorhersagen für mehrere Bilder treffen kann, ohne
die Textbeschreibung erneut verarbeiten zu müssen.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
Für die Verwaltung von Datensätzen und die Bereitstellung dieser optimierten Modelle wird die Ultralytics eine umfassende Umgebung für die Annotation von Daten und das Training modernster Modelle wie YOLO26und die Überwachung der Bereitstellungsleistung in verschiedenen Edge-KI-Geräten Geräten.