Descubre cómo los «attention sinks» estabilizan los modelos de lenguaje grande (LLM) y los modelos de lenguaje voluminoso (VLM) para la generación de secuencias infinitas. Aprende a optimizar la memoria e implementar una IA estable con Ultralytics .
Los sumideros de atención son un fenómeno fundamental descubierto en la arquitectura de los modelos de lenguaje a gran escala (LLM) y los modelos de visión y lenguaje (VLM) modernos, que garantiza la estabilidad durante la generación continua de textos o datos de gran extensión. En un mecanismo de atención, las redes neuronales asignan dinámicamente «pesos» a diferentes partes de la entrada. Los investigadores observaron que los modelos autorregresivos desvían de forma inherente una enorme cantidad de puntuaciones de atención excedentes hacia los primeros tokens de una secuencia, independientemente de su significado semántico real. Estos tokens iniciales actúan como un «sumidero de atención», proporcionando un ancla matemática que evita que las puntuaciones de atención del modelo se desplomen. Al mantener permanentemente estos tokens sumideros en la caché KV del modelo, los desarrolladores pueden habilitar la generación de secuencias infinitas sin degradar la precisión ni provocar fallos debido a los límites de memoria.
La necesidad de utilizar «sinks» de atención surge de la operación Softmax utilizada en los Transformers. Dado que la suma de las puntuaciones de atención debe ser siempre 1, el modelo necesita un lugar donde asignar la atención sobrante al procesar datos muy localizados. Los primeros tokens de una solicitud absorben de forma natural este exceso.
Históricamente, al generar secuencias muy largas, los ingenieros utilizaban técnicas de ventanas que eliminaban los tokens más antiguos de la memoria. Sin embargo, descartar los tokens iniciales provocaba una caída inmediata del rendimiento. Las implementaciones modernas, como StreamingLLM, conservan explícitamente estos tokens iniciales junto con los tokens más recientes. Este enfoque altamente optimizado de la gestión de la memoria se está explorando activamente en los desarrollos de visión de OpenAI y la investigaciónGoogle , y es compatible de forma nativa con el PyTorch .
Para comprender plenamente cómo los modelos de IA optimizan el contexto, resulta útil comparar los sumideros de atención con otras estrategias de memoria y hardware:
El descubrimiento de los «sumideros de atención» ha permitido desarrollar capacidades de procesamiento continuo y altamente eficientes en diversos sectores.
Aunque los «sinks» de atención se centran principalmente en optimizar modelos generativos a gran escala, la aplicación de bucles de inferencia eficientes y que optimizan el uso de la memoria reviste una importancia fundamental en la visión artificial (CV). Al procesar flujos de vídeo continuos con Ultralytics , el uso de generadores Python garantiza la estabilidad de la memoria durante largos periodos, de forma similar a la gestión de una ventana de contexto localizada.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for efficient, real-time edge processing
model = YOLO("yolo26n.pt")
# Process a continuous video stream efficiently without memory overflow
results = model.predict(source="rtsp://continuous_camera_stream", stream=True)
# Iterate through the generator to maintain a stable memory footprint over time
for frame_result in results:
print(f"Detected {len(frame_result.boxes)} objects in the current frame.")
Para ampliar estas eficientes cadenas de procesamiento de detección de objetos en tiempo real para su uso empresarial se necesitan herramientas de gestión robustas. Los desarrolladores pueden utilizar la Ultralytics para simplificar la implementación de modelos y la gestión automatizada de conjuntos de datos, lo que permite a los equipos crear con facilidad aplicaciones de visión artificial estables y de larga duración.

Comience su viaje con el futuro del aprendizaje automático