Semantic Caching

Scopri come la memorizzazione nella cache semantica riduce la latenza e i costi dell'IA. Impara come funziona per gli LLM e le pipeline di visione con un esempio pratico di Ultralytics YOLO26.

La memorizzazione nella cache semantica è una tecnica di ottimizzazione avanzata utilizzata principalmente nell'IA generativa e per i modelli linguistici di grandi dimensioni (LLM) che archivia e recupera le risposte in base al significato (semantica) di una query anziché al suo testo esatto. Identificando quando un nuovo prompt pone la stessa domanda fondamentale di una già risolta, la memorizzazione nella cache semantica evita la necessità di richiamare il modello IA, riducendo drasticamente i tempi di elaborazione e i costi API.

Link to this sectionCome funziona la memorizzazione nella cache semantica#

A differenza della memorizzazione nella cache tradizionale, che richiede corrispondenze di stringhe identiche, una cache semantica converte le query in arrivo in vettori numerici ad alta dimensionalità noti come embeddings. Quando un utente invia un prompt, i sistemi che utilizzano Redis semantic caching o archivi in-memory simili eseguono una ricerca vettoriale per confrontare il nuovo vettore con quelli precedentemente archiviati all'interno di un database vettoriale.

Questo confronto si basa su metriche di distanza matematica, più comunemente la similarità del coseno. Se il punteggio di similarità tra la nuova query e una query memorizzata nella cache supera una soglia predefinita (ad esempio 0,95), viene registrato come "cache hit". Il sistema restituisce istantaneamente la risposta memorizzata, ignorando completamente il motore di inferenza. Se il punteggio scende al di sotto della soglia, si verifica un "cache miss", che spinge il modello a generare una nuova risposta e a memorizzare la nuova coppia embedding-risposta per interazioni future. Questo flusso di lavoro è estremamente efficace nelle moderne architetture cloud per scalare le applicazioni IA.

Link to this sectionApplicazioni nel mondo reale#

La memorizzazione nella cache semantica è fondamentale per implementare soluzioni IA economicamente vantaggiose in vari domini.

Chatbot per il supporto clienti: In un help desk IT, centinaia di utenti potrebbero porre variazioni della stessa domanda (ad esempio: "Come posso reimpostare la mia password?" vs "Procedura password dimenticata"). La memorizzazione nella cache semantica riconosce questi intenti come identici, garantendo che il modello calcoli la risposta solo una volta. Ciò riduce drasticamente la latenza di inferenza e l'utilizzo dei token per le soluzioni di gestione API.
Visual Discovery e RAG: Nelle pipeline multimodali, le piattaforme utilizzano l'estrazione delle caratteristiche per memorizzare nella cache gli embeddings di immagini di riferimento. Quando un utente carica un'immagine per trovare elementi visivamente simili, il sistema può recuperare istantaneamente i risultati memorizzati nella cache semanticamente corrispondenti, accelerando rapidamente il sistema di raccomandazione visiva senza dover codificare ripetutamente grandi input visivi. Gli sviluppatori integrano spesso strumenti come LangChain per orchestrare questi livelli di cache.

Link to this sectionDifferenziare i termini correlati alla memorizzazione nella cache#

Per comprendere appieno l'ottimizzazione dell'IA, è utile distinguere la memorizzazione nella cache semantica da altre forme di gestione della memoria:

Vs. Prompt Caching: La memorizzazione nella cache dei prompt comporta il salvataggio degli stati matematici pre-calcolati di un contesto statico (come un lungo prefisso di documento) durante una sessione attiva per velocizzare le query successive. La memorizzazione nella cache semantica archivia l'output testuale o visivo finale di un'interazione completa per servire intenti completamente nuovi, ma identici.
Vs. KV Cache: La KV cache è un meccanismo di memoria di basso livello all'interno di un'architettura Transformer che salva gli stati di attenzione intermedi durante la generazione di testo token per token per facilitare l'inferenza in tempo reale. La memorizzazione nella cache semantica opera a livello di applicazione, memorizzando nella cache l'intero scambio input-output prima che raggiunga i livelli del modello.

Link to this sectionSimulare la memorizzazione nella cache semantica nella visione#

Il seguente snippet Python dimostra come simulare il meccanismo principale di una cache semantica utilizzando PyTorch e il pacchetto ultralytics. Calcolando la similarità tra un'immagine precedentemente memorizzata nella cache e una nuova immagine di query utilizzando un modello di classificazione Ultralytics YOLO26, il sistema può determinare se è necessario un passaggio di inferenza completo.

import torch
from ultralytics import YOLO

# Load an Ultralytics YOLO26 classification model for embedding generation
model = YOLO("yolo26n-cls.pt")

# Extract the embedding for a previously 'cached' reference image
cached_embed = model.embed("reference_shoe.jpg")[0].flatten()

# Extract the embedding for a new user query image
new_embed = model.embed("user_uploaded_shoe.jpg")[0].flatten()

# Calculate cosine similarity to check for a semantic cache hit
similarity = torch.nn.functional.cosine_similarity(cached_embed, new_embed, dim=0)

# Apply a threshold to determine if the images are semantically equivalent
if similarity > 0.90:
    print(f"Cache hit! Similarity: {similarity.item():.2f}. Returning cached response.")
else:
    print(f"Cache miss! Similarity: {similarity.item():.2f}. Running full inference.")

Per i team che desiderano gestire dataset e distribuire modelli di computer vision altamente ottimizzati in grado di integrarsi perfettamente con architetture di caching avanzate, la Ultralytics Platform fornisce un ambiente intuitivo end-to-end per l'addestramento, il monitoraggio e la distribuzione di modelli su larga scala.

Semantic Caching

Link to this sectionCome funziona la memorizzazione nella cache semantica#

Link to this sectionApplicazioni nel mondo reale#

Link to this sectionDifferenziare i termini correlati alla memorizzazione nella cache#

Link to this sectionSimulare la memorizzazione nella cache semantica nella visione#

Explore solutions

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

Costruiamo insieme il futuro dell'AI!