Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Semantic Caching

Descobre como o armazenamento em cache semântico reduz a latência e os custos de IA. Aprende como funciona para LLMs e pipelines de visão com um exemplo prático do Ultralytics YOLO26.

O cache semântico é uma técnica de otimização avançada usada principalmente em IA Generativa e para Modelos de Linguagem Grande (LLMs) que armazena e recupera respostas com base no significado (semântica) de uma consulta, em vez do seu texto exato. Ao identificar quando um novo prompt faz a mesma pergunta fundamental que uma já respondida, o cache semântico evita a necessidade de invocar novamente o modelo de IA, reduzindo drasticamente o tempo de processamento e os custos de API.

Link to this sectionComo funciona o Cache Semântico#

Diferente do cache tradicional que requer correspondências de string idênticas, um cache semântico converte consultas recebidas em vetores numéricos de alta dimensão conhecidos como embeddings. Quando um usuário envia um prompt, sistemas que utilizam cache semântico Redis ou armazenamentos em memória similares realizam uma busca vetorial para comparar o novo vetor com vetores armazenados anteriormente dentro de um banco de dados vetorial.

Essa comparação baseia-se em métricas de distância matemática, sendo a mais comum a similaridade de cosseno. Se a pontuação de similaridade entre a nova consulta e uma consulta em cache exceder um limite predefinido (por exemplo, 0,95), ela é registrada como um "cache hit". O sistema retorna instantaneamente a resposta armazenada, ignorando completamente o mecanismo de inferência. Se a pontuação cair abaixo do limite, resulta em um "cache miss", solicitando que o modelo gere uma nova resposta e armazene o novo par embedding-resposta para interações futuras. Esse fluxo de trabalho é altamente eficaz em arquiteturas de nuvem modernas para escalar aplicações de IA.

Link to this sectionAplicações no Mundo Real#

O cache semântico é fundamental para implantar soluções de IA econômicas em diversos domínios.

  • Chatbots de Suporte ao Cliente: Em um suporte de TI, centenas de usuários podem fazer variações da mesma pergunta (por exemplo, "Como redefinir minha senha?" vs. "Passos para senha esquecida"). O cache semântico reconhece essas intenções como idênticas, garantindo que o modelo compute a resposta apenas uma vez. Isso reduz drasticamente a latência de inferência e reduz o uso de tokens para soluções de gerenciamento de API.
  • Descoberta Visual e RAG: Em pipelines multimodais, plataformas usam extração de características para armazenar em cache os embeddings de imagens de referência. Quando um usuário faz upload de uma imagem para encontrar itens visualmente semelhantes, o sistema pode recuperar instantaneamente resultados armazenados em cache que correspondem semanticamente, acelerando rapidamente o sistema de recomendação visual sem precisar codificar repetidamente grandes entradas visuais. Desenvolvedores integram frequentemente ferramentas como LangChain para orquestrar essas camadas de cache.

Link to this sectionDiferenciando Termos de Cache Relacionados#

Para entender a otimização de IA completamente, é útil distinguir o cache semântico de outras formas de gerenciamento de memória:

  • Vs. Cache de Prompt: O cache de prompt envolve salvar os estados matemáticos pré-computados de um contexto estático (como um prefixo de documento longo) durante uma sessão ativa para acelerar consultas subsequentes. O cache semântico armazena a saída textual ou visual final de uma interação completa para atender a novas intenções, porém idênticas.
  • Vs. KV Cache: O KV cache é um mecanismo de memória de baixo nível dentro de uma arquitetura Transformer que salva estados de atenção intermediários durante a geração de texto token por token para facilitar a inferência em tempo real. O cache semântico opera na camada de aplicação, armazenando em cache toda a troca de entrada-saída antes mesmo de atingir as camadas do modelo.

Link to this sectionSimulando o Cache Semântico em Visão#

O snippet de Python a seguir demonstra como simular o mecanismo central de um cache semântico usando PyTorch e o pacote ultralytics. Ao calcular a similaridade entre uma imagem armazenada anteriormente em cache e uma nova imagem de consulta usando um modelo de classificação Ultralytics YOLO26, o sistema pode determinar se uma passagem de inferência completa é necessária.

import torch
from ultralytics import YOLO

# Load an Ultralytics YOLO26 classification model for embedding generation
model = YOLO("yolo26n-cls.pt")

# Extract the embedding for a previously 'cached' reference image
cached_embed = model.embed("reference_shoe.jpg")[0].flatten()

# Extract the embedding for a new user query image
new_embed = model.embed("user_uploaded_shoe.jpg")[0].flatten()

# Calculate cosine similarity to check for a semantic cache hit
similarity = torch.nn.functional.cosine_similarity(cached_embed, new_embed, dim=0)

# Apply a threshold to determine if the images are semantically equivalent
if similarity > 0.90:
    print(f"Cache hit! Similarity: {similarity.item():.2f}. Returning cached response.")
else:
    print(f"Cache miss! Similarity: {similarity.item():.2f}. Running full inference.")

Para equipes que buscam gerenciar datasets e implantar modelos de visão computacional altamente otimizados que podem ser integrados perfeitamente com arquiteturas de cache avançadas, a Ultralytics Platform fornece um ambiente intuitivo e de ponta a ponta para treinar, rastrear e servir modelos em escala.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática