Prompt Caching
Scopri come il prompt caching ottimizza l'AI generativa riducendo latenza e costi. Scopri il suo ruolo negli LLM e nella computer vision in tempo reale con Ultralytics YOLO26.
Il prompt caching è una strategia di ottimizzazione avanzata utilizzata principalmente nell'IA generativa per ridurre significativamente i costi e migliorare i tempi di risposta durante l'inferenza. Nell'ambito dei Large Language Models (LLM), l'elaborazione del testo richiede la conversione degli input in sequenze numeriche note come token. Spesso, una gran parte dei dati di input — come un'istruzione di sistema dettagliata, un lungo documento legale o una base di codice — rimane statica in molte diverse query degli utenti. Invece di rielaborare queste sezioni immutate per ogni nuova richiesta, il prompt caching memorizza i risultati matematici pre-calcolati (spesso chiamati cache Key-Value) in memoria. Ciò consente al motore di inferenza di evitare calcoli ridondanti, concentrando la potenza computazionale solo sulle parti nuove e dinamiche del prompt dell'utente.
Link to this sectionMeccanismi e vantaggi#
I meccanismi fondamentali del prompt caching si basano sull'architettura dei Transformer, che elaborano i dati in sequenza. Identificando il prefisso ripetitivo di un prompt, il sistema può caricare i corrispondenti stati del meccanismo di attenzione direttamente dalla memoria ad alta velocità.
- Latenza ridotta: Il caching abbassa drasticamente la latenza di inferenza, in particolare il Time to First Token (TTFT). Ciò garantisce che le applicazioni in tempo reale, come i chatbot interattivi, risultino istantanee per l'utente.
- Efficienza dei costi: Poiché i fornitori di Cloud Computing spesso fatturano in base alla durata del calcolo o all'elaborazione dei token, evitare il lavoro pesante per il contesto statico porta a risparmi sostanziali.
- Aumento del throughput: Liberando risorse GPU, i server possono gestire un volume maggiore di richieste simultanee, rendendo l'intera infrastruttura di model serving più scalabile.
Link to this sectionApplicazioni nel mondo reale#
Il prompt caching sta trasformando i settori che si basano su un ampio contesto di dati.
-
Assistenti alla programmazione: Nello sviluppo software, strumenti come GitHub Copilot utilizzano enormi quantità di contesto dai file aperti dell'utente e dalla struttura del repository. Memorizzando nella cache gli embedding della base di codice, il modello può fornire suggerimenti di completamento del codice in tempo reale senza dover rianalizzare l'intera struttura del progetto a ogni digitazione.
-
Analisi legale e medica: I professionisti interrogano spesso Agenti IA su massicci documenti statici, come archivi di giurisprudenza o cartelle cliniche. Utilizzando la Retrieval-Augmented Generation (RAG), il sistema recupera frammenti di testo pertinenti. Il prompt caching assicura che il contesto fondamentale di questi documenti recuperati non debba essere ricalcolato per le domande di follow-up, snellendo il flusso di lavoro di Question Answering.
Link to this sectionRilevanza nella Computer Vision#
Sebbene tradizionalmente associato al testo, il concetto di caching è vitale nella Computer Vision (CV) multimodale. Modelli come YOLO-World consentono agli utenti di rilevare oggetti utilizzando prompt testuali a vocabolario aperto. Quando definisci un elenco di classi (es. "persona, zaino, auto"), il modello calcola gli embedding di testo per queste classi. Memorizzare nella cache questi embedding impedisce al modello di dover ricodificare i prompt di testo per ogni singolo fotogramma video, consentendo un'inferenza in tempo reale ad alta velocità.
Link to this sectionDistinguere termini correlati#
- Vs. Prompt Engineering: Il prompt engineering comporta lo sforzo umano di progettare l'input di testo ottimale per guidare il modello. Il prompt caching è un'ottimizzazione computazionale di backend che memorizza l'elaborazione di quel testo da parte della macchina.
- Vs. Prompt Tuning: Il prompt tuning è una tecnica di Transfer Learning che aggiorna specifici pesi del modello (soft prompt) per adattare un modello a un compito. Il caching non cambia i parametri del modello; memorizza solo gli stati di attivazione durante l'esecuzione.
Link to this sectionEsempio di codice: memorizzazione degli embedding di testo nella visione#
Il seguente snippet Python dimostra il concetto di "caching" di un prompt in un contesto di visione utilizzando il pacchetto ultralytics. Impostando le classi una sola volta in un modello YOLO-World, gli embedding di testo vengono calcolati e memorizzati (persistenti), consentendo al modello di effettuare previsioni in modo efficiente su più immagini senza rielaborare la descrizione testuale.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")Per gestire i dataset e distribuire questi modelli ottimizzati, la piattaforma Ultralytics fornisce un ambiente completo per annotare i dati, addestrare modelli all'avanguardia come YOLO26 e monitorare le prestazioni di distribuzione su vari dispositivi Edge AI.






