Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Semantic Caching

Descubre cómo el almacenamiento en caché semántico reduce la latencia y los costes de la IA. Aprende cómo funciona para LLMs y pipelines de visión con un ejemplo práctico de Ultralytics YOLO26.

El almacenamiento en caché semántico es una técnica de optimización avanzada utilizada principalmente en IA generativa y para modelos de lenguaje grandes (LLM) que almacena y recupera respuestas basadas en el significado (semántica) de una consulta en lugar de en su texto exacto. Al identificar cuándo un nuevo prompt plantea la misma pregunta fundamental que una respondida anteriormente, el almacenamiento en caché semántico evita la necesidad de volver a invocar el modelo de IA, reduciendo drásticamente el tiempo de procesamiento y los costes de API.

Link to this sectionCómo funciona el almacenamiento en caché semántico#

A diferencia del almacenamiento en caché tradicional, que requiere coincidencias de cadenas idénticas, una caché semántica convierte las consultas entrantes en vectores numéricos de alta dimensión conocidos como embeddings. Cuando un usuario envía un prompt, los sistemas que utilizan caché semántica de Redis o almacenes en memoria similares realizan una búsqueda vectorial para comparar el nuevo vector con los vectores almacenados previamente en una base de datos vectorial.

Esta comparación se basa en métricas de distancia matemática, más comúnmente en la similitud de coseno. Si la puntuación de similitud entre la nueva consulta y una consulta almacenada en caché supera un umbral predefinido (por ejemplo, 0,95), se registra como un "acierto de caché". El sistema devuelve al instante la respuesta almacenada, omitiendo por completo el motor de inferencia. Si la puntuación cae por debajo del umbral, se produce un "fallo de caché", lo que lleva al modelo a generar una nueva respuesta y almacenar el nuevo par embedding-respuesta para futuras interacciones. Este flujo de trabajo es muy eficaz en arquitecturas en la nube modernas para escalar aplicaciones de IA.

Link to this sectionAplicaciones en el mundo real#

El almacenamiento en caché semántico es fundamental para implementar soluciones de IA rentables en diversos dominios.

  • Chatbots de atención al cliente: En un servicio de soporte técnico, cientos de usuarios pueden hacer variaciones de la misma pregunta (por ejemplo, "¿Cómo restauro mi contraseña?" frente a "Pasos para contraseña olvidada"). El almacenamiento en caché semántico reconoce estas intenciones como idénticas, asegurando que el modelo solo calcule la respuesta una vez. Esto reduce drásticamente la latencia de inferencia y disminuye el uso de tokens para soluciones de gestión de API.
  • Descubrimiento visual y RAG: En pipelines multimodales, las plataformas utilizan la extracción de características para almacenar en caché los embeddings de imágenes de referencia. Cuando un usuario sube una imagen para encontrar elementos visualmente similares, el sistema puede recuperar instantáneamente resultados emparejados semánticamente y almacenados en caché, acelerando rápidamente el sistema de recomendación visual sin necesidad de codificar repetidamente grandes entradas visuales. Los desarrolladores suelen integrar herramientas como LangChain para orquestar estas capas de almacenamiento en caché.

Link to this sectionDiferenciación de términos de caché relacionados#

Para entender completamente la optimización de la IA, es útil distinguir el almacenamiento en caché semántico de otras formas de gestión de memoria:

  • Frente al almacenamiento en caché de prompts: El almacenamiento en caché de prompts implica guardar los estados matemáticos precalculados de un contexto estático (como un prefijo de documento largo) durante una sesión activa para acelerar consultas posteriores. El almacenamiento en caché semántico guarda la salida textual o visual final de una interacción completa para servir intenciones completamente nuevas, pero idénticas.
  • Frente a la caché KV: La caché KV es un mecanismo de memoria de bajo nivel dentro de una arquitectura Transformer que guarda estados de atención intermedios durante la generación de texto token por token para facilitar la inferencia en tiempo real. El almacenamiento en caché semántico opera en la capa de aplicación, almacenando en caché todo el intercambio de entrada-salida antes de que llegue a las capas del modelo.

Link to this sectionSimulación de almacenamiento en caché semántico en visión#

El siguiente fragmento de Python demuestra cómo simular el mecanismo central de una caché semántica usando PyTorch y el paquete ultralytics. Al calcular la similitud entre una imagen almacenada en caché previamente y una nueva imagen de consulta utilizando un modelo de clasificación Ultralytics YOLO26, el sistema puede determinar si es necesario realizar una pasada de inferencia completa.

import torch
from ultralytics import YOLO

# Load an Ultralytics YOLO26 classification model for embedding generation
model = YOLO("yolo26n-cls.pt")

# Extract the embedding for a previously 'cached' reference image
cached_embed = model.embed("reference_shoe.jpg")[0].flatten()

# Extract the embedding for a new user query image
new_embed = model.embed("user_uploaded_shoe.jpg")[0].flatten()

# Calculate cosine similarity to check for a semantic cache hit
similarity = torch.nn.functional.cosine_similarity(cached_embed, new_embed, dim=0)

# Apply a threshold to determine if the images are semantically equivalent
if similarity > 0.90:
    print(f"Cache hit! Similarity: {similarity.item():.2f}. Returning cached response.")
else:
    print(f"Cache miss! Similarity: {similarity.item():.2f}. Running full inference.")

Para los equipos que buscan gestionar conjuntos de datos e implementar modelos de visión artificial altamente optimizados que puedan integrarse perfectamente con arquitecturas de almacenamiento en caché avanzadas, la Plataforma Ultralytics proporciona un entorno intuitivo de extremo a extremo para entrenar, realizar un seguimiento y servir modelos a escala.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático