Scopri come il caching tempestivo ottimizza l'IA generativa riducendo la latenza e i costi. Scopri come velocizzare l'inferenza LLM e i modelli di visione come YOLO26.
Il caching rapido è una strategia di ottimizzazione avanzata utilizzata principalmente nell' AI generativa per ridurre significativamente i costi e migliorare i tempi di risposta durante l'inferenza. Nel campo dei modelli linguistici di grandi dimensioni (LLM), l'elaborazione del testo richiede la conversione degli input in sequenze numeriche note come token. Spesso, gran parte dei dati di input, come istruzioni di sistema dettagliate, lunghi documenti legali o codici di programmazione, rimane statica in molte query diverse degli utenti. Invece di rielaborare queste sezioni immutabili per ogni nuova richiesta, la cache dei prompt memorizza gli stati matematici precalcolati (spesso chiamati cache chiave-valore) nella memoria. Ciò consente al motore di inferenza di saltare calcoli ridondanti, concentrando la potenza di calcolo solo sulle parti nuove e dinamiche del prompt dell'utente.
I meccanismi fondamentali del caching immediato si basano sull'architettura dei Transformers, che elaborano i dati in modo sequenziale. Identificando il prefisso ripetitivo di un prompt, il sistema può caricare il corrispondente meccanismo di attenzione direttamente dalla memoria ad alta velocità.
Il caching istantaneo sta trasformando i settori che fanno affidamento su un contesto di dati pesante.
Sebbene tradizionalmente associato al testo, il concetto di caching è fondamentale nella visione artificiale multimodale Computer Vision (CV). Modelli come YOLO consentono agli utenti di detect utilizzando prompt di testo a vocabolario aperto. Quando un utente definisce un elenco di classi (ad esempio, "persona, zaino, auto"), il modello calcola gli embedding di testo per queste classi. La memorizzazione nella cache di questi embedding evita al modello di dover ricodificare i prompt di testo per ogni singolo fotogramma video, consentendo un' inference in tempo reale.
Il seguente Python Questo snippet illustra il concetto di
"memorizzazione nella cache" di un prompt in un contesto visivo utilizzando il ultralytics pacchetto. Impostando le classi
una volta in un YOLO modello, gli
embedding del testo vengono calcolati e memorizzati (persistiti), consentendo al modello di prevedere in modo efficiente su più immagini senza
elaborare nuovamente la descrizione testuale.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
Per la gestione dei set di dati e l'implementazione di questi modelli ottimizzati, la Ultralytics fornisce un ambiente completo per l'annotazione dei dati e l'addestramento di modelli all'avanguardia come YOLO26e monitorare le prestazioni di implementazione su vari dispositivi Edge AI .
