Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Atención: timbre

Descubre cómo Ring Attention adapta los transformadores a secuencias de longitud infinita. Descubre cómo esta técnica mejora los modelos de lenguaje grande (LLM) y los transformadores de visión para tareas con grandes volúmenes de datos.

Ring Attention es una técnica avanzada de aprendizaje automático (ML) diseñada para ampliar la ventana de contexto de las arquitecturas Transformer a longitudes de secuencia prácticamente infinitas. Al distribuir el complejo cálculo de atención a través de un clúster de GPU conectadas en una topología en anillo, superpone de manera efectiva la comunicación con el cálculo. Este avance arquitectónico permite que los modelos de lenguaje a gran escala (LLM) y los transformadores de visión (ViT) procesen entradas masivas —como libros completos u horas de vídeo continuo— que superan con creces la capacidad de memoria de cualquier dispositivo de hardware individual.

Superar la barrera de la ventana de contexto

En los mecanismos estándar de autoatención, el consumo de memoria crece de forma cuadrática con la longitud de la secuencia de entrada. Esto supone un grave cuello de botella para los modelos de aprendizaje profundo (DL) que intentan analizar datos de formato largo. Para saber más sobre cómo aborda la comunidad de IA este problema, puedes consultar el trabajo de Berkeley AI Research sobre modelos de contexto amplio.

Ring Attention resuelve este cuello de botella cuadrático dividiendo las consultas, las claves y los valores en bloques más pequeños. Cada GPU la red distribuida procesa un bloque y, a continuación, pasa las claves y los valores al dispositivo vecino en el anillo. Esta transferencia cíclica continúa hasta que se calcula el mecanismo de atención completo. El uso de herramientas como el paquete de comunicaciónPyTorch permite a los desarrolladores crear estos sofisticados flujos de trabajo de entrenamiento en múltiples dispositivos.

Atención por timbre frente a atención por flash

Aunque ambas técnicas optimizan la memoria, operan a distintos niveles. Flash Attention es un algoritmo que tiene en cuenta el hardware y que minimiza las costosas lecturas y escrituras de memoria dentro de la SRAM GPU sola GPU. Por el contrario, Ring Attention es un algoritmo distribuido centrado en escalar el cálculo a través de múltiples GPU. En los flujos de trabajo de IA generativa de última generación, estas dos técnicas se combinan con frecuencia para lograr tanto la eficiencia del hardware localizada como una escalabilidad masiva en múltiples dispositivos, tal y como se detalla en el artículo de investigación original sobre Ring Attention publicado en arXiv.

Aplicaciones en el mundo real

La capacidad de procesar millones de tokens simultáneamente abre las puertas a potentes funcionalidades en la IA moderna:

  1. Análisis exhaustivo de documentos y código fuente: Ring Attention permite a los modelos procesar millones de líneas de código o complejas bibliotecas jurídicas con una sola solicitud. Esto mejora considerablemente los sistemas basados en la generación aumentada por recuperación (RAG), permitiéndoles sintetizar el contexto sin omitir información esencial. Este concepto es fundamental para los modelos de contexto a gran escala, como la arquitectura GeminiGoogle.
  2. Comprensión avanzada de vídeo: En la visión artificial (CV), el procesamiento de secuencias de vídeo de alta resolución suele requerir una reducción de resolución considerable. Ring Attention permite a los modelos analizar flujos de vídeo sin comprimir de una hora de duración. Esto mejora el reconocimiento de acciones y el seguimiento continuo de objetos en sistemas de seguridad y de conducción autónoma, manteniendo la percepción temporal a lo largo de largos periodos de tiempo.

Procesamiento de secuencias de imágenes

Mientras que los modelos de atención distribuida a gran escala gestionan contextos infinitos, las aplicaciones prácticas orientadas al borde exigen arquitecturas altamente optimizadas. Para la inferencia en tiempo real y el procesamiento de secuencias visuales, Ultralytics ofrece un rendimiento líder en el sector sin la enorme carga computacional que suponen los transformadores basados exclusivamente en la atención.

from ultralytics import YOLO

# Load the recommended YOLO26 model for high-speed object tracking
model = YOLO("yolo26n.pt")

# Perform robust multi-object tracking on a long video sequence
results = model.track(source="long_surveillance_feed.mp4", stream=True)

# Iterate through the stream to process temporal tracking data
for frame_result in results:
    print(f"Tracked {len(frame_result.boxes)} objects in current frame.")

A la hora de desarrollar y escalar estas complejas soluciones de detección de objetos y segmentación de imágenes, la gestión de la coordinación del hardware resulta fundamental. La Ultralytics simplifica por completo este proceso, ofreciendo herramientas para un entrenamiento en la nube sin interrupciones, la anotación automatizada de conjuntos de datos y la implementación de modelos con un solo clic en múltiples entornos de hardware. El uso de estas plataformas garantiza que las técnicas de escalado de vanguardia pasen sin problemas de la investigación a flujos de trabajo de IA escalables y listos para la producción.

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático