Glosario

Caché de avisos

Aumente la eficiencia de la IA con el almacenamiento en caché inmediato. Descubra cómo reducir la latencia, recortar costes y escalar aplicaciones de IA con esta potente técnica.

El almacenamiento en caché de las instrucciones es una técnica de optimización que se utiliza principalmente con los modelos de grandes lenguajes (LLM) para acelerar el proceso de inferencia. Funciona almacenando los resultados computacionales intermedios, concretamente los estados clave-valor (KV) en el mecanismo de atención, de una parte inicial de un prompt. Cuando una nueva solicitud comparte el mismo inicio (prefijo), el modelo puede reutilizar estos estados almacenados en caché en lugar de volver a calcularlos, lo que reduce significativamente la latencia y la carga computacional necesaria para generar una respuesta. Esto resulta especialmente eficaz en aplicaciones de IA conversacional o consultas repetitivas.

Cómo funciona el caché de avisos

Cuando un LLM procesa una secuencia de texto, como una frase o un párrafo, calcula puntuaciones de atención para cada token en su ventana de contexto. Se trata de una parte del proceso muy costosa desde el punto de vista computacional, sobre todo cuando se trata de instrucciones largas. La idea central de la caché de avisos, a menudo denominada caché KV, es evitar el trabajo redundante. Si el modelo ya ha procesado la frase "Translate the following English text to French:", almacena el estado interno resultante. Cuando más tarde reciba la petición "Traduce el siguiente texto en inglés al francés: '¡Hola, mundo!'", puede cargar el estado almacenado en caché para la frase inicial y comenzar su cálculo sólo para la parte nueva, "'¡Hola, mundo!'". De este modo, el proceso de generación de texto es mucho más rápido para solicitudes similares posteriores. Los sistemas como vLLM están diseñados para gestionar eficazmente este proceso, mejorando el rendimiento global.

Aplicaciones reales

La caché de avisos es una optimización crucial para muchos sistemas de IA del mundo real, ya que mejora la experiencia del usuario al proporcionar respuestas más rápidas.

  • Chatbots interactivos y asistentes virtuales: En una conversación de chatbot, cada turno se basa en intercambios anteriores. El almacenamiento en caché del historial de la conversación como prefijo permite al modelo generar la siguiente respuesta sin reprocesar todo el diálogo, lo que conduce a una interacción mucho más fluida y receptiva. Esto es fundamental para el rendimiento de los asistentes virtuales modernos.
  • Generación y finalización de código: Los asistentes de codificación basados en IA, como GitHub Copilot, suelen utilizar el almacenamiento en caché. El código existente en un archivo sirve como una larga indicación. Al almacenar en caché los estados KV de este código, el modelo puede generar rápidamente sugerencias para la siguiente línea o completar una función sin necesidad de volver a analizar todo el archivo cada vez que se teclea un carácter, lo que hace posible la inferencia en tiempo real.

Prompt Caching vs. Conceptos relacionados

Es útil distinguir la caché rápida de otras técnicas relacionadas:

  • Ingeniería Prompt: Se centra en el diseño de instrucciones eficaces para obtener las respuestas deseadas del modelo de IA. El almacenamiento en caché optimiza la ejecución de estas instrucciones, independientemente de lo bien diseñadas que estén.
  • Prompt Enriquecimiento: Consiste en añadir información contextual o aclaratoria a la consulta del usuario antes de enviarla al modelo. El almacenamiento en caché se produce durante o después de que el modelo procese la consulta (potencialmente enriquecida).
  • Prompt Tuning y LoRA: Son métodos de ajuste fino eficiente de parámetros (PEFT ) que adaptan el comportamiento de un modelo entrenando pequeños conjuntos de parámetros adicionales. El almacenamiento en caché es una optimización en tiempo de inferencia que no modifica los pesos del modelo en sí.
  • Generación mejorada por recuperación (RAG): Mejora las consultas recuperando información relevante de bases de conocimiento externas y añadiéndola al contexto de la consulta. Aunque RAG modifica la entrada, la caché puede seguir aplicándose al procesamiento de la consulta combinada (consulta original + datos recuperados).
  • Almacenamiento en caché de resultados estándar: el almacenamiento en caché tradicional de la web almacena el resultado final de una solicitud. La caché de peticiones suele almacenar estados de cálculo intermedios dentro de la cadena de procesamiento del modelo, lo que permite una reutilización más flexible, especialmente para peticiones que comparten prefijos comunes pero tienen terminaciones diferentes.

Aunque el almacenamiento en caché de las instrucciones se asocia principalmente a los LLM, el principio subyacente de almacenamiento en caché de los cálculos podría aplicarse en modelos multimodales complejos en los que las instrucciones de texto interactúan con otras modalidades. Sin embargo, es menos común en tareas estándar de visión por ordenador (CV) como la detección de objetos mediante modelos como Ultralytics YOLO. Plataformas como Ultralytics HUB agilizan el despliegue y la gestión de modelos de IA, donde optimizaciones como el almacenamiento en caché pueden ser cruciales para el rendimiento en entornos de producción.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles