Glosario

Caché de avisos

¡Aumenta la eficiencia de la IA con el almacenamiento rápido en caché! Aprende a reducir la latencia, recortar costes y escalar las aplicaciones de IA utilizando esta potente técnica.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El almacenamiento en caché de las instrucciones es una técnica de optimización que se utiliza principalmente con los Grandes Modelos Lingüísticos (LLM) y otros modelos generativos de Inteligencia Artificial (IA). Consiste en almacenar los resultados del procesamiento de una instrucción de entrada específica (o partes de ella), de modo que si se vuelve a recibir la misma instrucción o una muy similar, el resultado almacenado pueda recuperarse rápidamente y reutilizarse en lugar de volver a calcularlo desde cero. Esto reduce significativamente la latencia de la inferencia, disminuye los costes computacionales asociados a la ejecución de modelos potentes como el GPT-4, y mejora la eficacia y escalabilidad generales de las aplicaciones de IA.

Cómo funciona el caché de avisos

Cuando un LLM procesa un aviso, pasa por varios pasos computacionales, incluida la tokenización y cálculos complejos dentro de sus capas de red neuronal, que a menudo implican mecanismos de atención. La caché de instrucciones suele almacenar el estado computacional intermedio (como pares clave-valor en las capas de atención de la arquitectura Transformer, a menudo denominada caché KV) asociado a una instrucción determinada o a un prefijo de una instrucción. Cuando llega una nueva solicitud, el sistema comprueba si su prefijo coincide con una solicitud previamente procesada y almacenada en caché. Si se encuentra una coincidencia, se recupera el estado intermedio almacenado en caché, lo que permite al modelo saltarse los pasos iniciales de cálculo y empezar a generar la respuesta a partir de ese estado guardado. Esto es especialmente eficaz en la IA conversacional o en escenarios en los que las peticiones comparten comienzos comunes. Los sistemas suelen utilizar almacenes de valores clave como Redis o Memcached para gestionar estas cachés de forma eficiente.

Ventajas del caché de avisos

Implementar el caché rápido ofrece varias ventajas:

  • Latencia reducida: Acelera significativamente los tiempos de respuesta para consultas repetidas o similares, mejorando la experiencia del usuario en aplicaciones interactivas como los chatbots.
  • Menores costes computacionales: Disminuye la carga sobre hardware caro como las GPU, lo que supone un ahorro de costes, especialmente cuando se utilizan recursos de computación en la nube o llamadas API a LLM comerciales.
  • Mejora del rendimiento: Permite al sistema gestionar más peticiones simultáneamente, ya que los recursos se liberan más rápidamente.
  • Coherencia: Garantiza respuestas idénticas para peticiones idénticas, lo que puede ser deseable en determinadas aplicaciones.

Aplicaciones en el mundo real

La caché rápida es valiosa en varios sistemas basados en IA:

  1. IA conversacional y asistentes virtuales: En sistemas como los asistentes virtuales de atención al cliente, muchas conversaciones empiezan con saludos similares o preguntas comunes (por ejemplo, "¿Cuál es su horario comercial?", "¿Cómo puedo restablecer mi contraseña?"). Almacenar en caché el procesamiento inicial de estas entradas comunes permite al sistema responder mucho más rápido. Por ejemplo, el estado de procesamiento tras gestionar "Hola, necesito ayuda con..." puede almacenarse en caché y reutilizarse al instante para múltiples usuarios que inicien solicitudes similares. Explora la IA en el servicio de atención al cliente.
  2. Plataformas de generación de contenidos: Las herramientas utilizadas para la generación de texto, como los asistentes de escritura o los generadores de código, suelen recibir avisos con instrucciones recurrentes o prefijos de contexto (por ejemplo, "Traduce el siguiente texto al francés:", "Escribe código Python para..."). Almacenar en caché el estado correspondiente a estos prefijos acelera el proceso de generación, especialmente útil en entornos interactivos o de gran volumen. Más información sobre los casos de uso de la IA generativa.

Caché de avisos frente a conceptos relacionados

Es útil distinguir la caché rápida de otras técnicas relacionadas:

  • Prompt Ingeniería: Se centra en diseñar instrucciones eficaces para obtener las respuestas deseadas del modelo de IA. El almacenamiento en caché optimiza la ejecución de estas instrucciones, independientemente de lo bien diseñadas que estén.
  • Prompt Enriquecimiento: Consiste en añadir contexto o información aclaratoria a la consulta del usuario antes de enviarla al modelo. El almacenamiento en caché se produce durante o después de que el modelo procese la consulta (potencialmente enriquecida).
  • Sintonización rápida y LoRA: Son métodos de ajuste fino eficiente de parámetros (PEFT ) que adaptan el comportamiento de un modelo entrenando pequeños conjuntos de parámetros adicionales, personalizando eficazmente el modelo para tareas específicas. El almacenamiento en caché es una optimización en tiempo de inferencia que no cambia el modelo en sí.
  • Generación mejorada por recuperación (RAG): Mejora las consultas recuperando información relevante de bases de conocimiento externas y añadiéndola al contexto de la consulta. Aunque la RAG modifica la entrada, la caché puede seguir aplicándose al procesamiento de la consulta combinada (consulta original + datos recuperados).
  • Caché de salida estándar: El caché web tradicional almacena la salida final de una solicitud. El almacenamiento en caché de las peticiones suele almacenar estados computacionales intermedios dentro de la cadena de procesamiento del modelo, lo que permite una reutilización más flexible, especialmente para peticiones que comparten prefijos comunes pero tienen terminaciones diferentes.

Aunque el almacenamiento en caché de los avisos se asocia predominantemente con los LLM, el principio subyacente del almacenamiento en caché de los cálculos podría aplicarse potencialmente en modelos multimodales complejos en los que los avisos de texto interactúan con otras modalidades, aunque es menos común en tareas estándar de visión por ordenador como la detección de objetos mediante modelos como Ultralytics YOLO(ver comparaciones de modelos YOLO ). Plataformas como Ultralytics HUB agilizan el despliegue y la gestión de los modelos de IA, donde optimizaciones como el almacenamiento en caché pueden ser cruciales para el rendimiento en entornos de producción(infórmate sobre las mejores prácticas de despliegue).

Leer todo