Descubre cómo Ring Attention adapta los transformadores a secuencias de longitud infinita. Descubre cómo esta técnica mejora los modelos de lenguaje grande (LLM) y los transformadores de visión para tareas con grandes volúmenes de datos.
Ring Attention es una técnica avanzada de aprendizaje automático (ML) diseñada para ampliar la ventana de contexto de las arquitecturas Transformer a longitudes de secuencia prácticamente infinitas. Al distribuir el complejo cálculo de atención a través de un clúster de GPU conectadas en una topología en anillo, superpone de manera efectiva la comunicación con el cálculo. Este avance arquitectónico permite que los modelos de lenguaje a gran escala (LLM) y los transformadores de visión (ViT) procesen entradas masivas —como libros completos u horas de vídeo continuo— que superan con creces la capacidad de memoria de cualquier dispositivo de hardware individual.
En los mecanismos estándar de autoatención, el consumo de memoria crece de forma cuadrática con la longitud de la secuencia de entrada. Esto supone un grave cuello de botella para los modelos de aprendizaje profundo (DL) que intentan analizar datos de formato largo. Para saber más sobre cómo aborda la comunidad de IA este problema, puedes consultar el trabajo de Berkeley AI Research sobre modelos de contexto amplio.
Ring Attention resuelve este cuello de botella cuadrático dividiendo las consultas, las claves y los valores en bloques más pequeños. Cada GPU la red distribuida procesa un bloque y, a continuación, pasa las claves y los valores al dispositivo vecino en el anillo. Esta transferencia cíclica continúa hasta que se calcula el mecanismo de atención completo. El uso de herramientas como el paquete de comunicaciónPyTorch permite a los desarrolladores crear estos sofisticados flujos de trabajo de entrenamiento en múltiples dispositivos.
Aunque ambas técnicas optimizan la memoria, operan a distintos niveles. Flash Attention es un algoritmo que tiene en cuenta el hardware y que minimiza las costosas lecturas y escrituras de memoria dentro de la SRAM GPU sola GPU. Por el contrario, Ring Attention es un algoritmo distribuido centrado en escalar el cálculo a través de múltiples GPU. En los flujos de trabajo de IA generativa de última generación, estas dos técnicas se combinan con frecuencia para lograr tanto la eficiencia del hardware localizada como una escalabilidad masiva en múltiples dispositivos, tal y como se detalla en el artículo de investigación original sobre Ring Attention publicado en arXiv.
La capacidad de procesar millones de tokens simultáneamente abre las puertas a potentes funcionalidades en la IA moderna:
Mientras que los modelos de atención distribuida a gran escala gestionan contextos infinitos, las aplicaciones prácticas orientadas al borde exigen arquitecturas altamente optimizadas. Para la inferencia en tiempo real y el procesamiento de secuencias visuales, Ultralytics ofrece un rendimiento líder en el sector sin la enorme carga computacional que suponen los transformadores basados exclusivamente en la atención.
from ultralytics import YOLO
# Load the recommended YOLO26 model for high-speed object tracking
model = YOLO("yolo26n.pt")
# Perform robust multi-object tracking on a long video sequence
results = model.track(source="long_surveillance_feed.mp4", stream=True)
# Iterate through the stream to process temporal tracking data
for frame_result in results:
print(f"Tracked {len(frame_result.boxes)} objects in current frame.")
A la hora de desarrollar y escalar estas complejas soluciones de detección de objetos y segmentación de imágenes, la gestión de la coordinación del hardware resulta fundamental. La Ultralytics simplifica por completo este proceso, ofreciendo herramientas para un entrenamiento en la nube sin interrupciones, la anotación automatizada de conjuntos de datos y la implementación de modelos con un solo clic en múltiples entornos de hardware. El uso de estas plataformas garantiza que las técnicas de escalado de vanguardia pasen sin problemas de la investigación a flujos de trabajo de IA escalables y listos para la producción.
Comience su viaje con el futuro del aprendizaje automático