Aumentate l'efficienza dell'intelligenza artificiale con la cache immediata! Scoprite come ridurre la latenza, tagliare i costi e scalare le app di intelligenza artificiale utilizzando questa potente tecnica.
La cache dei prompt è una tecnica di ottimizzazione utilizzata principalmente con i Large Language Models (LLM) per accelerare il processo di inferenza. Funziona memorizzando i risultati computazionali intermedi, in particolare gli stati chiave-valore (KV) nel meccanismo di attenzione, di una parte iniziale di un prompt. Quando un nuovo prompt condivide lo stesso inizio (prefisso), il modello può riutilizzare questi stati nella cache invece di ricompilarli, riducendo significativamente la latenza e il carico computazionale necessario per generare una risposta. Ciò è particolarmente efficace nelle applicazioni che coinvolgono l'intelligenza artificiale conversazionale o le interrogazioni ripetitive.
Quando un LLM elabora una sequenza di testo, come una frase o un paragrafo, calcola i punteggi di attenzione per ogni token nella sua finestra di contesto. Si tratta di una parte del processo molto costosa dal punto di vista computazionale, soprattutto nel caso di prompt lunghi. L'idea alla base della memorizzazione nella cache dei prompt, spesso chiamata KV cache, è di evitare il lavoro ridondante. Se il modello ha già elaborato la frase "Traduci il seguente testo inglese in francese:", memorizza lo stato interno risultante. Quando in seguito riceve la richiesta "Traduci il seguente testo inglese in francese: 'Ciao, mondo!'", può caricare lo stato della cache per la frase iniziale e iniziare il calcolo solo per la nuova parte, "'Ciao, mondo!". Questo rende il processo di generazione del testo molto più veloce per le successive richieste simili. Sistemi come vLLM sono progettati per gestire in modo efficiente questo processo, migliorando il throughput complessivo.
La cache dei prompt è un'ottimizzazione cruciale per molti sistemi di intelligenza artificiale del mondo reale, che migliora l'esperienza dell'utente fornendo risposte più rapide.
È utile distinguere il prompt caching da altre tecniche correlate:
Sebbene la memorizzazione nella cache dei prompt sia prevalentemente associata ai LLM, il principio di base della memorizzazione nella cache dei calcoli potrebbe essere applicato a modelli multimodali complessi in cui i prompt testuali interagiscono con altre modalità. Tuttavia, è meno comune nei compiti di computer vision (CV) standard, come il rilevamento degli oggetti, utilizzando modelli come Ultralytics YOLO. Piattaforme come Ultralytics HUB semplificano la distribuzione e la gestione dei modelli di intelligenza artificiale, dove ottimizzazioni come il caching possono essere fondamentali per le prestazioni in ambienti di produzione.