Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Almacenamiento en caché de prompts

Descubra cómo el almacenamiento en caché inmediato optimiza la IA generativa al reducir la latencia y los costes. Aprenda a acelerar la inferencia LLM y los modelos de visión como YOLO26.

El almacenamiento en caché rápido es una estrategia de optimización avanzada que se utiliza principalmente en IA generativa para reducir significativamente los costes y mejorar los tiempos de respuesta durante la inferencia. En el ámbito de los modelos de lenguaje grandes (LLM), el procesamiento de texto requiere convertir las entradas en secuencias numéricas conocidas como tokens. A menudo, una gran parte de los datos de entrada, como una instrucción detallada del sistema, un documento legal extenso o una base de código, permanece estática en muchas consultas diferentes de los usuarios. En lugar de volver a procesar estas secciones que no cambian para cada nueva solicitud, el almacenamiento en caché de prompts almacena los estados matemáticos precalculados (a menudo denominados caché de clave-valor) en la memoria. Esto permite que el motor de inferencia pueda omitir cálculos redundantes, centrando la potencia computacional solo en las partes nuevas y dinámicas de la solicitud del usuario.

Mecanismos y beneficios

La mecánica fundamental del almacenamiento en caché rápido se basa en la arquitectura de transformadores, que procesan los datos de forma secuencial. Al identificar el prefijo repetitivo de un prompt, el sistema puede cargar el correspondiente mecanismo de atención estados directamente desde la memoria de alta velocidad.

  • Reducción de la latencia: el almacenamiento en caché reduce drásticamente la latencia de inferencia, concretamente el tiempo hasta el primer token (TTFT). Esto garantiza que las aplicaciones en tiempo real, como los chatbots, se perciban como instantáneas para el usuario.
  • Rentabilidad: Dado que los proveedores de computación en la nube a menudo facturan en función de la duración del cálculo o del procesamiento de tokens, el hecho de evitar el trabajo pesado del contexto estático supone un ahorro sustancial.
  • Aumento del rendimiento: al liberar GPU , los servidores pueden gestionar un mayor volumen de solicitudes simultáneas, lo que hace que todo el servicio de modelos más escalable.

Aplicaciones en el mundo real

El almacenamiento en caché rápido está transformando las industrias que dependen de un contexto de datos pesado.

  1. Asistentes de codificación: En el desarrollo de software, herramientas como GitHub Copilot utilizan grandes cantidades de contexto de los archivos abiertos y la estructura del repositorio del usuario. Al almacenar en caché las incrustaciones de la base de código, el modelo puede proporcionar sugerencias de finalización de código en tiempo real sin volver a analizar toda la estructura de archivos del proyecto con cada pulsación.
  2. Análisis jurídico y médico: Los profesionales suelen consultar a los agentes de IA contra documentos estáticos masivos , como archivos de jurisprudencia o historiales de pacientes. El uso de la generación aumentada por recuperación (RAG), el sistema recupera fragmentos de texto relevantes. El almacenamiento en caché de las preguntas garantiza que el contexto fundamental de estos documentos recuperados no tenga que volver a calcularse para las preguntas de seguimiento, lo que agiliza la flujo de trabajo de respuesta a preguntas .

Relevancia en la visión artificial

Aunque tradicionalmente se asocia con el texto, el concepto de almacenamiento en caché es fundamental en la visión artificial multimodal visión artificial (CV). Modelos como YOLO permiten a los usuarios detect utilizando indicaciones de texto de vocabulario abierto. Cuando un usuario define una lista de clases (por ejemplo, «persona, mochila, coche»), el modelo calcula las incrustaciones de texto para estas clases. El almacenamiento en caché de estas incrustaciones evita que el modelo tenga que recodificar las indicaciones de texto para cada fotograma de vídeo, lo que permite una inferencia en tiempo real.

Distinción de términos relacionados

  • Vs. Ingeniería de indicaciones: La ingeniería de indicaciones implica el esfuerzo humano de diseñar la entrada de texto óptima para guiar al modelo. El almacenamiento en caché de indicaciones es una optimización computacional de backend que almacena el procesamiento de ese texto por parte de la máquina.
  • Vs. Ajuste rápido: El ajuste rápido es un técnica de aprendizaje por transferencia que actualiza pesos del modelo (indicaciones suaves) para adaptar un modelo a una tarea. El almacenamiento en caché no cambia los parámetros del modelo; solo memoriza los estados de activación durante el tiempo de ejecución.

Ejemplo de código: Almacenamiento en caché de incrustaciones de texto en Vision

Los siguientes Python El fragmento muestra el concepto de «almacenamiento en caché» de un mensaje en un contexto de visión utilizando el ultralytics paquete. Al establecer las clases una vez en un YOLO modelo, las incrustaciones de texto se calculan y almacenan (persisten), lo que permite al modelo realizar predicciones eficientes en múltiples imágenes sin volver a procesar la descripción textual.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

Para gestionar conjuntos de datos e implementar estos modelos optimizados, la Ultralytics proporciona un entorno completo para anotar datos y entrenar modelos de última generación como YOLO26y supervisar el rendimiento de la implementación en diversos dispositivos Edge AI .

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora