Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Prompt Caching

Scopri come il prompt caching ottimizza l'AI generativa riducendo latenza e costi. Scopri il suo ruolo negli LLM e nella computer vision in tempo reale con Ultralytics YOLO26.

Il prompt caching è una strategia di ottimizzazione avanzata utilizzata principalmente nell'IA generativa per ridurre significativamente i costi e migliorare i tempi di risposta durante l'inferenza. Nell'ambito dei Large Language Models (LLM), l'elaborazione del testo richiede la conversione degli input in sequenze numeriche note come token. Spesso, una gran parte dei dati di input — come un'istruzione di sistema dettagliata, un lungo documento legale o una base di codice — rimane statica in molte diverse query degli utenti. Invece di rielaborare queste sezioni immutate per ogni nuova richiesta, il prompt caching memorizza i risultati matematici pre-calcolati (spesso chiamati cache Key-Value) in memoria. Ciò consente al motore di inferenza di evitare calcoli ridondanti, concentrando la potenza computazionale solo sulle parti nuove e dinamiche del prompt dell'utente.

Link to this sectionMeccanismi e vantaggi#

I meccanismi fondamentali del prompt caching si basano sull'architettura dei Transformer, che elaborano i dati in sequenza. Identificando il prefisso ripetitivo di un prompt, il sistema può caricare i corrispondenti stati del meccanismo di attenzione direttamente dalla memoria ad alta velocità.

  • Latenza ridotta: Il caching abbassa drasticamente la latenza di inferenza, in particolare il Time to First Token (TTFT). Ciò garantisce che le applicazioni in tempo reale, come i chatbot interattivi, risultino istantanee per l'utente.
  • Efficienza dei costi: Poiché i fornitori di Cloud Computing spesso fatturano in base alla durata del calcolo o all'elaborazione dei token, evitare il lavoro pesante per il contesto statico porta a risparmi sostanziali.
  • Aumento del throughput: Liberando risorse GPU, i server possono gestire un volume maggiore di richieste simultanee, rendendo l'intera infrastruttura di model serving più scalabile.

Link to this sectionApplicazioni nel mondo reale#

Il prompt caching sta trasformando i settori che si basano su un ampio contesto di dati.

  1. Assistenti alla programmazione: Nello sviluppo software, strumenti come GitHub Copilot utilizzano enormi quantità di contesto dai file aperti dell'utente e dalla struttura del repository. Memorizzando nella cache gli embedding della base di codice, il modello può fornire suggerimenti di completamento del codice in tempo reale senza dover rianalizzare l'intera struttura del progetto a ogni digitazione.

  2. Analisi legale e medica: I professionisti interrogano spesso Agenti IA su massicci documenti statici, come archivi di giurisprudenza o cartelle cliniche. Utilizzando la Retrieval-Augmented Generation (RAG), il sistema recupera frammenti di testo pertinenti. Il prompt caching assicura che il contesto fondamentale di questi documenti recuperati non debba essere ricalcolato per le domande di follow-up, snellendo il flusso di lavoro di Question Answering.

Link to this sectionRilevanza nella Computer Vision#

Sebbene tradizionalmente associato al testo, il concetto di caching è vitale nella Computer Vision (CV) multimodale. Modelli come YOLO-World consentono agli utenti di rilevare oggetti utilizzando prompt testuali a vocabolario aperto. Quando definisci un elenco di classi (es. "persona, zaino, auto"), il modello calcola gli embedding di testo per queste classi. Memorizzare nella cache questi embedding impedisce al modello di dover ricodificare i prompt di testo per ogni singolo fotogramma video, consentendo un'inferenza in tempo reale ad alta velocità.

Link to this sectionDistinguere termini correlati#

  • Vs. Prompt Engineering: Il prompt engineering comporta lo sforzo umano di progettare l'input di testo ottimale per guidare il modello. Il prompt caching è un'ottimizzazione computazionale di backend che memorizza l'elaborazione di quel testo da parte della macchina.
  • Vs. Prompt Tuning: Il prompt tuning è una tecnica di Transfer Learning che aggiorna specifici pesi del modello (soft prompt) per adattare un modello a un compito. Il caching non cambia i parametri del modello; memorizza solo gli stati di attivazione durante l'esecuzione.

Link to this sectionEsempio di codice: memorizzazione degli embedding di testo nella visione#

Il seguente snippet Python dimostra il concetto di "caching" di un prompt in un contesto di visione utilizzando il pacchetto ultralytics. Impostando le classi una sola volta in un modello YOLO-World, gli embedding di testo vengono calcolati e memorizzati (persistenti), consentendo al modello di effettuare previsioni in modo efficiente su più immagini senza rielaborare la descrizione testuale.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

Per gestire i dataset e distribuire questi modelli ottimizzati, la piattaforma Ultralytics fornisce un ambiente completo per annotare i dati, addestrare modelli all'avanguardia come YOLO26 e monitorare le prestazioni di distribuzione su vari dispositivi Edge AI.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning