Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Almacenamiento en caché de prompts

¡Aumente la eficiencia de la IA con el almacenamiento en caché de prompts! Aprenda a reducir la latencia, recortar costos y escalar aplicaciones de IA utilizando esta poderosa técnica.

El almacenamiento en caché de las instrucciones es una técnica de optimización que se utiliza principalmente con los Modelos de Lenguaje Extensos (LLM) para acelerar el proceso de inferencia. Funciona almacenando los resultados computacionales intermedios de una parte inicial de una instrucción. Cuando una nueva pregunta comparte el mismo comienzo, conocido como prefijo, el modelo puede reutilizar estos estados almacenados en caché en lugar de volver a calcularlos. Este método reduce significativamente la latencia y la carga computacional necesaria para generar una respuesta, lo que lo hace especialmente eficaz en aplicaciones que implican IA conversacional o consultas repetitivas. Al evitar cálculos redundantes, la caché inmediata mejora el rendimiento y reduce los costes operativos.

Cómo funciona el almacenamiento en caché de prompts

Cuando un LLM procesa una secuencia de texto, calcula los estados internos de cada token dentro de su ventana de contexto. Se trata de una parte del proceso muy costosa desde el punto de vista computacional, sobre todo en el caso de peticiones largas. La idea central de la caché de avisos, a menudo denominada caché KV, es guardar estos estados internos, concretamente los pares clave-valor (KV) en el mecanismo de atención. Por ejemplo, si un modelo procesa el prefijo "Traduce el siguiente texto en inglés al francés:", almacena el estado resultante. Cuando más tarde recibe una solicitud completa como "Traduce el siguiente texto en inglés al francés: '¡Hola, mundo!", puede cargar el estado almacenado en caché para la frase inicial y comenzar el cálculo sólo para la parte nueva. De este modo, el proceso de generación de texto es mucho más rápido para solicitudes similares posteriores. Sistemas como el proyecto de código abierto vLLM están diseñados para gestionar eficazmente este proceso, mejorando el rendimiento general del motor de inferencia.

Aplicaciones en el mundo real

La caché de avisos es una optimización crucial para muchos sistemas de Inteligencia Artificial (IA) del mundo real, ya que mejora la experiencia del usuario al proporcionar respuestas más rápidas.

  • Chatbots interactivos y asistentes virtuales: En una conversación de chatbot, cada turno se basa en intercambios anteriores. Almacenar en caché el historial de la conversación como prefijo permite al modelo generar la siguiente respuesta sin reprocesar todo el diálogo. Esto conduce a una interacción mucho más fluida y receptiva, que es fundamental para el rendimiento de los asistentes virtuales modernos y mejora la experiencia del usuario en plataformas como Poe.
  • Generación y finalización de código: Los asistentes de codificación basados en IA, como GitHub Copilot, suelen utilizar el almacenamiento en caché. El código existente en un archivo sirve como una larga indicación. Al almacenar en caché los estados KV de este código, el modelo puede generar rápidamente sugerencias para la siguiente línea o completar una función sin necesidad de volver a analizar todo el archivo cada vez que se teclea un carácter, haciendo posible la inferencia en tiempo real. Esta técnica es una parte fundamental del funcionamiento de los asistentes de código de IA.

Almacenamiento en caché de prompts vs. Conceptos relacionados

Resulta útil distinguir la caché rápida de otras técnicas relacionadas en el aprendizaje automático (ML):

  • Ingeniería Prompt: Se centra en el diseño de instrucciones eficaces para obtener las respuestas deseadas de un modelo de IA. El almacenamiento en caché optimiza la ejecución de estas instrucciones, independientemente de lo bien diseñadas que estén.
  • Prompt Enriquecimiento: Consiste en añadir información contextual o aclaratoria a la consulta del usuario antes de enviarla al modelo. El almacenamiento en caché se produce durante el procesamiento por parte del modelo de la consulta (potencialmente enriquecida).
  • Prompt Tuning y LoRA: Son métodos de ajuste fino eficiente de parámetros (PEFT ) que adaptan el comportamiento de un modelo entrenando pequeños conjuntos de parámetros adicionales. El almacenamiento en caché es una optimización en tiempo de inferencia que no modifica los pesos del modelo en sí.
  • Generación mejorada por recuperación (RAG): Mejora los mensajes recuperando información relevante de bases de conocimiento externas y añadiéndola al contexto del mensaje. Aunque la RAG modifica la entrada, la caché puede seguir aplicándose al procesamiento de la instrucción combinada.
  • Caché de salida estándar: el caché web tradicional, gestionado por una red de distribución de contenidos (CDN), almacena la salida final de una solicitud. La caché de petición almacena estados computacionales intermedios dentro del canal de procesamiento del modelo, lo que permite una reutilización más flexible.

Aunque el almacenamiento en caché de las instrucciones se asocia principalmente a los LLM, el principio subyacente de almacenamiento en caché de los cálculos puede aplicarse a modelos multimodales complejos en los que las instrucciones de texto interactúan con otras modalidades. Sin embargo, es menos común en tareas estándar de visión por ordenador (CV) como la detección de objetos utilizando modelos como Ultralytics YOLO11. En las plataformas para el despliegue de modelos es donde optimizaciones como el almacenamiento en caché resultan cruciales para el rendimiento en entornos de producción, como se detalla en recursos de proveedores como Anyscale y NVIDIA.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles