Descubra cómo el almacenamiento en caché inmediato optimiza la IA generativa al reducir la latencia y los costes. Aprenda a acelerar la inferencia LLM y los modelos de visión como YOLO26.
El almacenamiento en caché rápido es una estrategia de optimización avanzada que se utiliza principalmente en IA generativa para reducir significativamente los costes y mejorar los tiempos de respuesta durante la inferencia. En el ámbito de los modelos de lenguaje grandes (LLM), el procesamiento de texto requiere convertir las entradas en secuencias numéricas conocidas como tokens. A menudo, una gran parte de los datos de entrada, como una instrucción detallada del sistema, un documento legal extenso o una base de código, permanece estática en muchas consultas diferentes de los usuarios. En lugar de volver a procesar estas secciones que no cambian para cada nueva solicitud, el almacenamiento en caché de prompts almacena los estados matemáticos precalculados (a menudo denominados caché de clave-valor) en la memoria. Esto permite que el motor de inferencia pueda omitir cálculos redundantes, centrando la potencia computacional solo en las partes nuevas y dinámicas de la solicitud del usuario.
La mecánica fundamental del almacenamiento en caché rápido se basa en la arquitectura de transformadores, que procesan los datos de forma secuencial. Al identificar el prefijo repetitivo de un prompt, el sistema puede cargar el correspondiente mecanismo de atención estados directamente desde la memoria de alta velocidad.
El almacenamiento en caché rápido está transformando las industrias que dependen de un contexto de datos pesado.
Aunque tradicionalmente se asocia con el texto, el concepto de almacenamiento en caché es fundamental en la visión artificial multimodal visión artificial (CV). Modelos como YOLO permiten a los usuarios detect utilizando indicaciones de texto de vocabulario abierto. Cuando un usuario define una lista de clases (por ejemplo, «persona, mochila, coche»), el modelo calcula las incrustaciones de texto para estas clases. El almacenamiento en caché de estas incrustaciones evita que el modelo tenga que recodificar las indicaciones de texto para cada fotograma de vídeo, lo que permite una inferencia en tiempo real.
Los siguientes Python El fragmento muestra el concepto de
«almacenamiento en caché» de un mensaje en un contexto de visión utilizando el ultralytics paquete. Al establecer las clases
una vez en un YOLO modelo, las incrustaciones de texto
se calculan y almacenan (persisten), lo que permite al modelo realizar predicciones eficientes en múltiples imágenes sin
volver a procesar la descripción textual.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
Para gestionar conjuntos de datos e implementar estos modelos optimizados, la Ultralytics proporciona un entorno completo para anotar datos y entrenar modelos de última generación como YOLO26y supervisar el rendimiento de la implementación en diversos dispositivos Edge AI .