Aumenta l'efficienza dell'AI con il prompt caching! Scopri come ridurre la latenza, tagliare i costi e scalare le app AI utilizzando questa potente tecnica.
La cache dei prompt è una tecnica di ottimizzazione utilizzata principalmente con i Large Language Models (LLM) per accelerare il processo di inferenza. Funziona memorizzando i risultati computazionali intermedi di una parte iniziale di un prompt. Quando un nuovo prompt condivide lo stesso inizio, noto come prefisso, il modello può riutilizzare questi stati nella cache invece di ricompilarli. Questo metodo riduce in modo significativo la latenza e il carico di calcolo necessario per generare una risposta, rendendolo particolarmente efficace nelle applicazioni che coinvolgono l'intelligenza artificiale conversazionale o le interrogazioni ripetitive. Evitando calcoli ridondanti, il prompt caching migliora il throughput e riduce i costi operativi.
Quando un LLM elabora una sequenza di testo, calcola gli stati interni per ogni token all'interno della sua finestra di contesto. Si tratta di una parte del processo molto dispendiosa dal punto di vista computazionale, soprattutto nel caso di prompt lunghi. L'idea alla base del prompt caching, spesso chiamato KV caching, è quella di salvare questi stati interni, in particolare le coppie chiave-valore (KV) nel meccanismo di attenzione. Ad esempio, se un modello elabora il prefisso "Traduci il seguente testo inglese in francese:", memorizza lo stato risultante. Quando successivamente riceve una richiesta completa come "Traduci il seguente testo inglese in francese: 'Ciao, mondo!'", può caricare lo stato memorizzato per la frase iniziale e iniziare il calcolo solo per la nuova parte. In questo modo il processo di generazione del testo è molto più veloce per le richieste successive e simili. Sistemi come il progetto open-source vLLM sono progettati per gestire in modo efficiente questo processo, migliorando il throughput complessivo del motore di inferenza.
La cache dei prompt è un'ottimizzazione cruciale per molti sistemi di intelligenza artificiale (AI) del mondo reale, che migliora l'esperienza dell'utente fornendo risposte più rapide.
È utile distinguere il prompt caching da altre tecniche correlate nell'apprendimento automatico (ML):
Sebbene la memorizzazione nella cache dei prompt sia prevalentemente associata ai LLM, il principio di base della memorizzazione nella cache dei calcoli può essere applicato a modelli multimodali complessi in cui i prompt di testo interagiscono con altre modalità. Tuttavia, è meno comune nei compiti standard di visione artificiale (CV), come il rilevamento di oggetti con modelli come Ultralytics YOLO11. Le piattaforme per l'implementazione dei modelli sono il punto in cui le ottimizzazioni come il caching diventano cruciali per le prestazioni negli ambienti di produzione, come dettagliato nelle risorse di fornitori come Anyscale e NVIDIA.