Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Prompt Caching

Aumenta l'efficienza dell'AI con il prompt caching! Scopri come ridurre la latenza, tagliare i costi e scalare le app AI utilizzando questa potente tecnica.

La cache dei prompt è una tecnica di ottimizzazione utilizzata principalmente con i Large Language Models (LLM) per accelerare il processo di inferenza. Funziona memorizzando i risultati computazionali intermedi di una parte iniziale di un prompt. Quando un nuovo prompt condivide lo stesso inizio, noto come prefisso, il modello può riutilizzare questi stati nella cache invece di ricompilarli. Questo metodo riduce in modo significativo la latenza e il carico di calcolo necessario per generare una risposta, rendendolo particolarmente efficace nelle applicazioni che coinvolgono l'intelligenza artificiale conversazionale o le interrogazioni ripetitive. Evitando calcoli ridondanti, il prompt caching migliora il throughput e riduce i costi operativi.

Come Funziona il Prompt Caching

Quando un LLM elabora una sequenza di testo, calcola gli stati interni per ogni token all'interno della sua finestra di contesto. Si tratta di una parte del processo molto dispendiosa dal punto di vista computazionale, soprattutto nel caso di prompt lunghi. L'idea alla base del prompt caching, spesso chiamato KV caching, è quella di salvare questi stati interni, in particolare le coppie chiave-valore (KV) nel meccanismo di attenzione. Ad esempio, se un modello elabora il prefisso "Traduci il seguente testo inglese in francese:", memorizza lo stato risultante. Quando successivamente riceve una richiesta completa come "Traduci il seguente testo inglese in francese: 'Ciao, mondo!'", può caricare lo stato memorizzato per la frase iniziale e iniziare il calcolo solo per la nuova parte. In questo modo il processo di generazione del testo è molto più veloce per le richieste successive e simili. Sistemi come il progetto open-source vLLM sono progettati per gestire in modo efficiente questo processo, migliorando il throughput complessivo del motore di inferenza.

Applicazioni nel mondo reale

La cache dei prompt è un'ottimizzazione cruciale per molti sistemi di intelligenza artificiale (AI) del mondo reale, che migliora l'esperienza dell'utente fornendo risposte più rapide.

  • Chatbot interattivi e assistenti virtuali: In una conversazione tra chatbot, ogni turno si basa sugli scambi precedenti. La memorizzazione nella cache della cronologia della conversazione come prefisso consente al modello di generare la risposta successiva senza rielaborare l'intero dialogo. Questo porta a un'interazione molto più fluida e reattiva, che è fondamentale per le prestazioni dei moderni assistenti virtuali e migliora l'esperienza dell'utente in piattaforme come Poe.
  • Generazione e completamento del codice: Gli assistenti di codifica dotati di intelligenza artificiale, come GitHub Copilot, utilizzano spesso la cache. Il codice esistente in un file funge da prompt lungo. Mettendo in cache gli stati KV di questo codice, il modello può generare rapidamente suggerimenti per la riga successiva o completare una funzione senza dover analizzare nuovamente l'intero file ogni volta che viene digitato un carattere, rendendo possibile l'inferenza in tempo reale. Questa tecnica è una parte fondamentale del funzionamento degli assistenti al codice AI.

Prompt Caching vs. Concetti Correlati

È utile distinguere il prompt caching da altre tecniche correlate nell'apprendimento automatico (ML):

  • Ingegneria tempestiva: Si concentra sulla progettazione di prompt efficaci per suscitare le risposte desiderate da un modello di intelligenza artificiale. La cache ottimizza l'esecuzione di questi prompt, indipendentemente da quanto siano ben progettati.
  • Arricchimento dei promemoria: Consiste nell'aggiungere informazioni contestuali o chiarificatrici al prompt dell'utente prima che venga inviato al modello. La memorizzazione nella cache avviene durante l' elaborazione del prompt (potenzialmente arricchito) da parte del modello.
  • Sintonizzazione del prompt e LoRA: Si tratta di metodi di messa a punto efficiente dei parametri (PEFT) che adattano il comportamento di un modello addestrando piccole serie di parametri aggiuntivi. La cache è un'ottimizzazione in tempo di inferenza che non modifica i pesi del modello stesso.
  • Generazione aumentata dal recupero (RAG): Migliora i prompt recuperando informazioni rilevanti da basi di conoscenza esterne e aggiungendole al contesto del prompt. Mentre RAG modifica l'input, la cache può ancora essere applicata all'elaborazione del prompt combinato.
  • Caching dell'output standard: il caching web tradizionale, gestito da una Content Delivery Network (CDN), memorizza l'output finale di una richiesta. Il caching dei prompt memorizza gli stati computazionali intermedi all'interno della pipeline di elaborazione del modello, consentendo un riutilizzo più flessibile.

Sebbene la memorizzazione nella cache dei prompt sia prevalentemente associata ai LLM, il principio di base della memorizzazione nella cache dei calcoli può essere applicato a modelli multimodali complessi in cui i prompt di testo interagiscono con altre modalità. Tuttavia, è meno comune nei compiti standard di visione artificiale (CV), come il rilevamento di oggetti con modelli come Ultralytics YOLO11. Le piattaforme per l'implementazione dei modelli sono il punto in cui le ottimizzazioni come il caching diventano cruciali per le prestazioni negli ambienti di produzione, come dettagliato nelle risorse di fornitori come Anyscale e NVIDIA.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti