Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Prompt Caching

Scopri come il caching tempestivo ottimizza l'IA generativa riducendo la latenza e i costi. Scopri come velocizzare l'inferenza LLM e i modelli di visione come YOLO26.

Il caching rapido è una strategia di ottimizzazione avanzata utilizzata principalmente nell' AI generativa per ridurre significativamente i costi e migliorare i tempi di risposta durante l'inferenza. Nel campo dei modelli linguistici di grandi dimensioni (LLM), l'elaborazione del testo richiede la conversione degli input in sequenze numeriche note come token. Spesso, gran parte dei dati di input, come istruzioni di sistema dettagliate, lunghi documenti legali o codici di programmazione, rimane statica in molte query diverse degli utenti. Invece di rielaborare queste sezioni immutabili per ogni nuova richiesta, la cache dei prompt memorizza gli stati matematici precalcolati (spesso chiamati cache chiave-valore) nella memoria. Ciò consente al motore di inferenza di saltare calcoli ridondanti, concentrando la potenza di calcolo solo sulle parti nuove e dinamiche del prompt dell'utente.

Meccanismi e benefici

I meccanismi fondamentali del caching immediato si basano sull'architettura dei Transformers, che elaborano i dati in modo sequenziale. Identificando il prefisso ripetitivo di un prompt, il sistema può caricare il corrispondente meccanismo di attenzione direttamente dalla memoria ad alta velocità.

  • Latenza ridotta: la memorizzazione nella cache riduce notevolmente la latenza di inferenza, in particolare il tempo di primo token (TTFT). Ciò garantisce che le applicazioni in tempo reale, come i chatbot interattivi chatbot, risultino istantanee per l'utente.
  • Efficienza dei costi: poiché Cloud Computing fatturano spesso in base alla durata di elaborazione o all'elaborazione dei token, evitare il lavoro pesante per il contesto statico porta a risparmi sostanziali.
  • Aumento della produttività: liberando GPU , i server possono gestire un volume maggiore di richieste simultanee, rendendo l'intero infrastruttura di servizio dei modelli più scalabile.

Applicazioni nel mondo reale

Il caching istantaneo sta trasformando i settori che fanno affidamento su un contesto di dati pesante.

  1. Assistenti di codifica: nello sviluppo di software, strumenti come GitHub Copilot utilizzano grandi quantità di contesto dai file aperti dell'utente e dalla struttura del repository. Memorizzando nella cache gli incorporamenti del codice, il modello è in grado di fornire suggerimenti per il completamento del codice in tempo reale senza dover analizzare nuovamente l'intera struttura dei file di progetto ad ogni battitura.
  2. Analisi legale e medica: i professionisti spesso interrogano agenti di IA su enormi quantità di documenti statici , come archivi di giurisprudenza o cartelle cliniche dei pazienti. Utilizzando la Retrieval-Augmented Generation (RAG), il sistema recupera parti di testo rilevanti. La memorizzazione nella cache dei prompt garantisce che il contesto fondamentale di questi documenti recuperati non debba essere ricalcolato per le domande successive, semplificando la flusso di lavoro di risposta alle domande .

Rilevanza nella Computer Vision

Sebbene tradizionalmente associato al testo, il concetto di caching è fondamentale nella visione artificiale multimodale Computer Vision (CV). Modelli come YOLO consentono agli utenti di detect utilizzando prompt di testo a vocabolario aperto. Quando un utente definisce un elenco di classi (ad esempio, "persona, zaino, auto"), il modello calcola gli embedding di testo per queste classi. La memorizzazione nella cache di questi embedding evita al modello di dover ricodificare i prompt di testo per ogni singolo fotogramma video, consentendo un' inference in tempo reale.

Distinguere i termini correlati

  • Vs. Prompt Engineering: Il prompt engineering comporta lo sforzo umano di progettare l'input di testo ottimale per guidare il modello. Il prompt caching è un'ottimizzazione computazionale backend che memorizza l'elaborazione di quel testo da parte della macchina.
  • Vs. Ottimizzazione dei prompt: L'ottimizzazione dei prompt è un tecnica di apprendimento trasferito che aggiorna specifici pesi del modello (prompt soft) per adattare un modello a un compito. La memorizzazione nella cache non modifica i parametri del modello, ma memorizza solo gli stati di attivazione durante il tempo di esecuzione.

Esempio di codice: memorizzazione nella cache degli embedding di testo in Vision

Il seguente Python Questo snippet illustra il concetto di "memorizzazione nella cache" di un prompt in un contesto visivo utilizzando il ultralytics pacchetto. Impostando le classi una volta in un YOLO modello, gli embedding del testo vengono calcolati e memorizzati (persistiti), consentendo al modello di prevedere in modo efficiente su più immagini senza elaborare nuovamente la descrizione testuale.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

Per la gestione dei set di dati e l'implementazione di questi modelli ottimizzati, la Ultralytics fornisce un ambiente completo per l'annotazione dei dati e l'addestramento di modelli all'avanguardia come YOLO26e monitorare le prestazioni di implementazione su vari dispositivi Edge AI .

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora