Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Attention Sinks

Descubre cómo los "attention sinks" estabilizan los LLM y VLM para la generación de secuencias infinitas. Aprende a optimizar la memoria e implementar IA estable con YOLO26 de Ultralytics.

Los attention sinks son un fenómeno crítico descubierto en la arquitectura de los large language models (LLMs) y vision-language models (VLMs) modernos que garantiza la estabilidad durante la generación continua de textos o datos de gran longitud. En un attention mechanism, las redes neuronales asignan "pesos" de forma dinámica a diferentes partes de la entrada. Los investigadores observaron que los modelos autorregresivos vuelcan intrínsecamente una cantidad masiva de puntuaciones de atención en exceso sobre los primeros tokens de una secuencia, independientemente de su significado semántico real. Estos tokens iniciales actúan como un "attention sink", proporcionando un ancla matemática que evita que las puntuaciones de atención del modelo colapsen. Al mantener permanentemente estos tokens sumidero en la KV cache del modelo, puedes habilitar la generación de secuencias infinitas sin degradar la precisión ni provocar fallos por límites de memoria.

Link to this sectionCómo estabilizan los modelos los Attention Sinks#

La necesidad de los attention sinks surge de la operación Softmax utilizada en los Transformers. Dado que las puntuaciones de atención siempre deben sumar 1, el modelo necesita un lugar donde asignar la atención innecesaria al procesar datos altamente localizados. Los tokens más antiguos de un prompt absorben naturalmente este exceso.

Históricamente, al generar secuencias muy largas, los ingenieros utilizaban técnicas de ventanas que eliminaban los tokens antiguos de la memoria. Sin embargo, descartar los tokens sumidero iniciales provocaba un colapso inmediato del rendimiento. Las implementaciones modernas, como StreamingLLM, retienen explícitamente estos tokens iniciales junto con los tokens más recientes. Este enfoque altamente optimizado de la gestión de memoria se explora activamente en los desarrollos de visión de OpenAI y la investigación de Google DeepMind, y cuenta con soporte nativo dentro del ecosistema PyTorch.

Link to this sectionDiferenciación de conceptos de atención relacionados#

Para comprender plenamente cómo optimizan el contexto los modelos de IA, resulta útil contrastar los attention sinks con otras estrategias de memoria y hardware:

  • Attention Sinks vs. Sliding Window Attention: El Sliding window attention restringe el enfoque del modelo a un número fijo de tokens recientes para ahorrar memoria. Sin embargo, las ventanas deslizantes estrictas descartan los primeros tokens, lo que provoca inestabilidad. Los attention sinks modifican esto anclando la ventana con esos primeros tokens cruciales.
  • Attention Sinks vs. Flash Attention: Flash Attention es una optimización a nivel de hardware que acelera las operaciones de lectura y escritura en la GPU. Los attention sinks, por el contrario, son un descubrimiento arquitectónico sobre qué tokens deben preservarse en la memoria para mantener la estabilidad lógica.

Link to this sectionAplicaciones en el mundo real#

El descubrimiento de los attention sinks ha desbloqueado capacidades de procesamiento continuo y altamente eficiente en diversas industrias.

  1. Agentes de IA y chatbots continuos: Al retener los attention sinks, un AI agent o un bot de atención al cliente puede transmitir un diálogo ininterrumpido durante horas. Olvida selectivamente los tokens intermedios mientras conserva el sumidero inicial y el contexto reciente, lo que evita errores de falta de memoria y preserva la coherencia conversacional.

  2. Comprensión de vídeo en tiempo real: En la smart surveillance y la monitorización continua, mantener una ventana de contexto estable es fundamental. Los modelos pueden analizar flujos de vídeo continuos durante días, igualando la eficiencia de las arquitecturas de visión optimizadas para el edge.

Link to this sectionImplementación de una inferencia continua eficiente#

Aunque los attention sinks optimizan principalmente los modelos generativos masivos, la aplicación de bucles de inferencia eficientes y conscientes de la memoria es universalmente importante en computer vision (CV). Al procesar flujos de vídeo continuos con Ultralytics YOLO26, aprovechar los generadores de Python garantiza la estabilidad de la memoria durante largos periodos, de forma similar a la gestión de una ventana de contexto localizada.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for efficient, real-time edge processing
model = YOLO("yolo26n.pt")

# Process a continuous video stream efficiently without memory overflow
results = model.predict(source="rtsp://continuous_camera_stream", stream=True)

# Iterate through the generator to maintain a stable memory footprint over time
for frame_result in results:
    print(f"Detected {len(frame_result.boxes)} objects in the current frame.")

Escalar estos pipelines de object detection eficientes y continuos para uso empresarial requiere herramientas de gestión robustas. Puedes utilizar la Ultralytics Platform para simplificar el model deployment y la gestión automatizada de datasets, permitiendo que los equipos creen aplicaciones de visión estables y de larga duración con facilidad.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático