Descubra como o Ring Attention adapta os Transformers a sequências de comprimento infinito. Saiba como esta técnica melhora os LLMs e os Vision Transformers para tarefas com grandes volumes de dados.
O Ring Attention é uma técnica avançada de aprendizagem automática (ML) concebida para ampliar a janela de contexto das arquiteturas Transformer para comprimentos de sequência praticamente infinitos. Ao distribuir o complexo cálculo de atenção por um cluster de GPUs ligadas numa topologia em anel, esta técnica sobrepõe eficazmente a comunicação ao cálculo. Esta inovação arquitetónica permite que os Grandes Modelos de Linguagem (LLMs) e os Vision Transformers (ViT) processem entradas massivas — tais como livros inteiros ou horas de vídeo contínuo — que excedem em muito a capacidade de memória de qualquer dispositivo de hardware individual.
Nos mecanismos padrão de autoatenção, o consumo de memória aumenta quadraticamente com o comprimento da sequência de entrada. Isto cria um grave estrangulamento para os modelos de aprendizagem profunda (DL) que tentam analisar dados de formato longo. Para saber mais sobre como a comunidade de IA aborda esta questão, pode explorar o trabalho da Berkeley AI Research sobre modelos de contexto alargado.
O Ring Attention resolve este estrangulamento quadrático dividindo as consultas, as chaves e os valores em blocos mais pequenos. Cada GPU rede distribuída calcula um bloco e, em seguida, transmite as chaves e os valores ao dispositivo vizinho no anel. Esta transferência cíclica continua até que o mecanismo de atenção completo seja calculado. A utilização de ferramentas como o pacote de comunicaçãoPyTorch permite aos programadores criar estes sofisticados fluxos de trabalho de treino em vários dispositivos.
Embora ambas as técnicas otimizem a memória, funcionam em níveis diferentes. O Flash Attention é um algoritmo sensível ao hardware que minimiza as dispendiosas operações de leitura e gravação de memória na SRAM GPU única GPU. Por outro lado, o Ring Attention é um algoritmo distribuído focado na escalabilidade computacional entre várias GPUs. Nos fluxos de trabalho de IA generativa de última geração, estas duas técnicas são frequentemente combinadas para alcançar tanto eficiência de hardware localizada como escalabilidade massiva em vários dispositivos, conforme detalhado no artigo de investigação original sobre o Ring Attention no arXiv.
A capacidade de processar milhões de tokens simultaneamente abre caminho para funcionalidades poderosas na IA moderna:
Embora os modelos de atenção distribuída em grande escala consigam lidar com contextos infinitos, as aplicações práticas orientadas para a periferia exigem arquiteturas altamente otimizadas. Para a inferência em tempo real e o processamento de sequências visuais, Ultralytics oferece um desempenho líder no setor sem a enorme sobrecarga computacional dos transformadores baseados exclusivamente em atenção.
from ultralytics import YOLO
# Load the recommended YOLO26 model for high-speed object tracking
model = YOLO("yolo26n.pt")
# Perform robust multi-object tracking on a long video sequence
results = model.track(source="long_surveillance_feed.mp4", stream=True)
# Iterate through the stream to process temporal tracking data
for frame_result in results:
print(f"Tracked {len(frame_result.boxes)} objects in current frame.")
Ao desenvolver e escalar estas soluções complexas de deteção de objetos e segmentação de imagens, a gestão da orquestração de hardware é fundamental. A Ultralytics simplifica totalmente este processo, oferecendo ferramentas para treino na nuvem sem interrupções, anotação automatizada de conjuntos de dados e implementação de modelos com um único clique em vários ambientes de hardware. A utilização destas plataformas garante que as técnicas de escalabilidade de ponta passem suavemente da investigação para pipelines de IA escaláveis e prontos para produção.
Comece sua jornada com o futuro do aprendizado de máquina