Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Semantic Caching

Scopri come la memorizzazione nella cache semantica riduce la latenza e i costi dell'IA. Impara come funziona per gli LLM e le pipeline di visione con un esempio pratico di Ultralytics YOLO26.

La memorizzazione nella cache semantica è una tecnica di ottimizzazione avanzata utilizzata principalmente nell'IA generativa e per i modelli linguistici di grandi dimensioni (LLM) che archivia e recupera le risposte in base al significato (semantica) di una query anziché al suo testo esatto. Identificando quando un nuovo prompt pone la stessa domanda fondamentale di una già risolta, la memorizzazione nella cache semantica evita la necessità di richiamare il modello IA, riducendo drasticamente i tempi di elaborazione e i costi API.

Link to this sectionCome funziona la memorizzazione nella cache semantica#

A differenza della memorizzazione nella cache tradizionale, che richiede corrispondenze di stringhe identiche, una cache semantica converte le query in arrivo in vettori numerici ad alta dimensionalità noti come embeddings. Quando un utente invia un prompt, i sistemi che utilizzano Redis semantic caching o archivi in-memory simili eseguono una ricerca vettoriale per confrontare il nuovo vettore con quelli precedentemente archiviati all'interno di un database vettoriale.

Questo confronto si basa su metriche di distanza matematica, più comunemente la similarità del coseno. Se il punteggio di similarità tra la nuova query e una query memorizzata nella cache supera una soglia predefinita (ad esempio 0,95), viene registrato come "cache hit". Il sistema restituisce istantaneamente la risposta memorizzata, ignorando completamente il motore di inferenza. Se il punteggio scende al di sotto della soglia, si verifica un "cache miss", che spinge il modello a generare una nuova risposta e a memorizzare la nuova coppia embedding-risposta per interazioni future. Questo flusso di lavoro è estremamente efficace nelle moderne architetture cloud per scalare le applicazioni IA.

Link to this sectionApplicazioni nel mondo reale#

La memorizzazione nella cache semantica è fondamentale per implementare soluzioni IA economicamente vantaggiose in vari domini.

  • Chatbot per il supporto clienti: In un help desk IT, centinaia di utenti potrebbero porre variazioni della stessa domanda (ad esempio: "Come posso reimpostare la mia password?" vs "Procedura password dimenticata"). La memorizzazione nella cache semantica riconosce questi intenti come identici, garantendo che il modello calcoli la risposta solo una volta. Ciò riduce drasticamente la latenza di inferenza e l'utilizzo dei token per le soluzioni di gestione API.
  • Visual Discovery e RAG: Nelle pipeline multimodali, le piattaforme utilizzano l'estrazione delle caratteristiche per memorizzare nella cache gli embeddings di immagini di riferimento. Quando un utente carica un'immagine per trovare elementi visivamente simili, il sistema può recuperare istantaneamente i risultati memorizzati nella cache semanticamente corrispondenti, accelerando rapidamente il sistema di raccomandazione visiva senza dover codificare ripetutamente grandi input visivi. Gli sviluppatori integrano spesso strumenti come LangChain per orchestrare questi livelli di cache.

Link to this sectionDifferenziare i termini correlati alla memorizzazione nella cache#

Per comprendere appieno l'ottimizzazione dell'IA, è utile distinguere la memorizzazione nella cache semantica da altre forme di gestione della memoria:

  • Vs. Prompt Caching: La memorizzazione nella cache dei prompt comporta il salvataggio degli stati matematici pre-calcolati di un contesto statico (come un lungo prefisso di documento) durante una sessione attiva per velocizzare le query successive. La memorizzazione nella cache semantica archivia l'output testuale o visivo finale di un'interazione completa per servire intenti completamente nuovi, ma identici.
  • Vs. KV Cache: La KV cache è un meccanismo di memoria di basso livello all'interno di un'architettura Transformer che salva gli stati di attenzione intermedi durante la generazione di testo token per token per facilitare l'inferenza in tempo reale. La memorizzazione nella cache semantica opera a livello di applicazione, memorizzando nella cache l'intero scambio input-output prima che raggiunga i livelli del modello.

Link to this sectionSimulare la memorizzazione nella cache semantica nella visione#

Il seguente snippet Python dimostra come simulare il meccanismo principale di una cache semantica utilizzando PyTorch e il pacchetto ultralytics. Calcolando la similarità tra un'immagine precedentemente memorizzata nella cache e una nuova immagine di query utilizzando un modello di classificazione Ultralytics YOLO26, il sistema può determinare se è necessario un passaggio di inferenza completo.

import torch
from ultralytics import YOLO

# Load an Ultralytics YOLO26 classification model for embedding generation
model = YOLO("yolo26n-cls.pt")

# Extract the embedding for a previously 'cached' reference image
cached_embed = model.embed("reference_shoe.jpg")[0].flatten()

# Extract the embedding for a new user query image
new_embed = model.embed("user_uploaded_shoe.jpg")[0].flatten()

# Calculate cosine similarity to check for a semantic cache hit
similarity = torch.nn.functional.cosine_similarity(cached_embed, new_embed, dim=0)

# Apply a threshold to determine if the images are semantically equivalent
if similarity > 0.90:
    print(f"Cache hit! Similarity: {similarity.item():.2f}. Returning cached response.")
else:
    print(f"Cache miss! Similarity: {similarity.item():.2f}. Running full inference.")

Per i team che desiderano gestire dataset e distribuire modelli di computer vision altamente ottimizzati in grado di integrarsi perfettamente con architetture di caching avanzate, la Ultralytics Platform fornisce un ambiente intuitivo end-to-end per l'addestramento, il monitoraggio e la distribuzione di modelli su larga scala.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning