Prompt Caching
Descubre cómo el almacenamiento en caché de prompts optimiza la IA generativa al reducir la latencia y los costos. Aprende su papel en los LLMs y la visión artificial en tiempo real con Ultralytics YOLO26.
El almacenamiento en caché de prompts es una estrategia de optimización avanzada utilizada principalmente en la IA generativa para reducir costes de forma significativa y mejorar los tiempos de respuesta durante la inferencia. En el ámbito de los modelos de lenguaje grandes (LLMs), el procesamiento de texto requiere convertir las entradas en secuencias numéricas conocidas como tokens. A menudo, una gran parte de los datos de entrada, como una instrucción detallada del sistema, un documento legal extenso o una base de código, permanece estática en muchas consultas de usuario diferentes. En lugar de volver a procesar estas secciones inalterables para cada nueva solicitud, el almacenamiento en caché de prompts guarda los estados matemáticos precalculados (a menudo llamados caché Key-Value) en la memoria. Esto permite que el motor de inferencia omita cálculos redundantes, centrando la potencia computacional solo en las partes nuevas y dinámicas del prompt del usuario.
Link to this sectionMecanismos y beneficios#
La mecánica fundamental del almacenamiento en caché de prompts se basa en la arquitectura de los Transformers, que procesan los datos de forma secuencial. Al identificar el prefijo repetitivo de un prompt, el sistema puede cargar los estados del mecanismo de atención correspondientes directamente desde la memoria de alta velocidad.
- Latencia reducida: El almacenamiento en caché reduce drásticamente la latencia de inferencia, específicamente el tiempo hasta el primer token (TTFT, por sus siglas en inglés). Esto asegura que las aplicaciones en tiempo real, como los chatbots interactivos, se sientan instantáneas para el usuario.
- Eficiencia de costes: Dado que los proveedores de computación en la nube suelen facturar en función de la duración del cómputo o del procesamiento de tokens, evitar el trabajo pesado para el contexto estático genera ahorros considerables.
- Mayor rendimiento: Al liberar recursos de GPU, los servidores pueden manejar un mayor volumen de solicitudes simultáneas, haciendo que toda la infraestructura de servido de modelos sea más escalable.
Link to this sectionAplicaciones en el mundo real#
El almacenamiento en caché de prompts está transformando sectores que dependen de un contexto de datos pesado.
-
Asistentes de codificación: En el desarrollo de software, herramientas como GitHub Copilot utilizan grandes cantidades de contexto de los archivos abiertos del usuario y la estructura del repositorio. Al almacenar en caché las embeddings de la base de código, el modelo puede proporcionar sugerencias de finalización de código en tiempo real sin tener que volver a analizar toda la estructura de archivos del proyecto con cada pulsación de tecla.
-
Análisis legal y médico: Los profesionales suelen consultar a agentes de IA sobre documentos estáticos masivos, como archivos de jurisprudencia o historiales médicos de pacientes. Mediante el uso de generación aumentada por recuperación (RAG), el sistema recupera fragmentos de texto relevantes. El almacenamiento en caché de prompts asegura que no sea necesario volver a calcular el contexto fundamental de estos documentos recuperados para preguntas de seguimiento, optimizando el flujo de trabajo de respuesta a preguntas.
Link to this sectionRelevancia en visión artificial#
Aunque tradicionalmente se asocia con el texto, el concepto de almacenamiento en caché es vital en la visión por ordenador (CV) multimodal. Modelos como YOLO-World permiten a los usuarios detectar objetos mediante prompts de texto de vocabulario abierto. Cuando un usuario define una lista de clases (por ejemplo, "persona, mochila, coche"), el modelo calcula las embeddings de texto para estas clases. Almacenar en caché estas embeddings evita que el modelo tenga que volver a codificar los prompts de texto para cada fotograma de vídeo, lo que permite una inferencia en tiempo real de alta velocidad.
Link to this sectionDistinción de términos relacionados#
- Vs. Ingeniería de prompts: La ingeniería de prompts implica el esfuerzo humano de diseñar la entrada de texto óptima para guiar al modelo. El almacenamiento en caché de prompts es una optimización computacional de backend que guarda el procesamiento de ese texto realizado por la máquina.
- Vs. Ajuste de prompts: El ajuste de prompts es una técnica de aprendizaje por transferencia que actualiza pesos del modelo específicos (prompts blandos) para adaptar un modelo a una tarea. El almacenamiento en caché no cambia los parámetros del modelo; solo memoriza los estados de activación durante el tiempo de ejecución.
Link to this sectionEjemplo de código: Almacenamiento en caché de embeddings de texto en visión#
El siguiente fragmento de Python demuestra el concepto de "almacenar en caché" un prompt en un contexto de visión utilizando el paquete ultralytics. Al configurar las clases una vez en un modelo YOLO-World, las embeddings de texto se calculan y se almacenan (persisten), lo que permite al modelo realizar predicciones de manera eficiente en varias imágenes sin volver a procesar la descripción de texto.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")Para gestionar conjuntos de datos y desplegar estos modelos optimizados, la Plataforma Ultralytics ofrece un entorno integral para anotar datos, entrenar modelos de última generación como YOLO26 y monitorizar el rendimiento del despliegue en diversos dispositivos de Edge AI.






