Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Chamar a atenção

Descubra como o Ring Attention adapta os Transformers a sequências de comprimento infinito. Saiba como esta técnica melhora os LLMs e os Vision Transformers para tarefas com grandes volumes de dados.

O Ring Attention é uma técnica avançada de aprendizagem automática (ML) concebida para ampliar a janela de contexto das arquiteturas Transformer para comprimentos de sequência praticamente infinitos. Ao distribuir o complexo cálculo de atenção por um cluster de GPUs ligadas numa topologia em anel, esta técnica sobrepõe eficazmente a comunicação ao cálculo. Esta inovação arquitetónica permite que os Grandes Modelos de Linguagem (LLMs) e os Vision Transformers (ViT) processem entradas massivas — tais como livros inteiros ou horas de vídeo contínuo — que excedem em muito a capacidade de memória de qualquer dispositivo de hardware individual.

Superar a barreira da janela de contexto

Nos mecanismos padrão de autoatenção, o consumo de memória aumenta quadraticamente com o comprimento da sequência de entrada. Isto cria um grave estrangulamento para os modelos de aprendizagem profunda (DL) que tentam analisar dados de formato longo. Para saber mais sobre como a comunidade de IA aborda esta questão, pode explorar o trabalho da Berkeley AI Research sobre modelos de contexto alargado.

O Ring Attention resolve este estrangulamento quadrático dividindo as consultas, as chaves e os valores em blocos mais pequenos. Cada GPU rede distribuída calcula um bloco e, em seguida, transmite as chaves e os valores ao dispositivo vizinho no anel. Esta transferência cíclica continua até que o mecanismo de atenção completo seja calculado. A utilização de ferramentas como o pacote de comunicaçãoPyTorch permite aos programadores criar estes sofisticados fluxos de trabalho de treino em vários dispositivos.

Atenção por toque vs. Atenção por flash

Embora ambas as técnicas otimizem a memória, funcionam em níveis diferentes. O Flash Attention é um algoritmo sensível ao hardware que minimiza as dispendiosas operações de leitura e gravação de memória na SRAM GPU única GPU. Por outro lado, o Ring Attention é um algoritmo distribuído focado na escalabilidade computacional entre várias GPUs. Nos fluxos de trabalho de IA generativa de última geração, estas duas técnicas são frequentemente combinadas para alcançar tanto eficiência de hardware localizada como escalabilidade massiva em vários dispositivos, conforme detalhado no artigo de investigação original sobre o Ring Attention no arXiv.

Aplicações no Mundo Real

A capacidade de processar milhões de tokens simultaneamente abre caminho para funcionalidades poderosas na IA moderna:

  1. Análise abrangente de documentos e código-fonte: O Ring Attention permite que os modelos processem milhões de linhas de código ou bibliotecas jurídicas complexas numa única solicitação. Isto melhora significativamente os sistemas que se baseiam na Geração Aumentada por Recuperação (RAG), permitindo-lhes sintetizar o contexto sem omitir informações essenciais. Este conceito é fundamental para modelos de contexto de grande escala, como a arquitetura GeminiGoogle.
  2. Compreensão Avançada de Vídeo: Na visão computacional (CV), o processamento de sequências de vídeo de alta resolução requer, normalmente, uma redução de resolução significativa. O Ring Attention permite que os modelos analisem feeds de vídeo não comprimidos com uma hora de duração. Isto melhora o reconhecimento de ações e o rastreamento contínuo de objetos em sistemas de segurança e de condução autónoma, mantendo a perceção temporal ao longo de longos períodos de tempo.

Processamento de sequências de imagens

Embora os modelos de atenção distribuída em grande escala consigam lidar com contextos infinitos, as aplicações práticas orientadas para a periferia exigem arquiteturas altamente otimizadas. Para a inferência em tempo real e o processamento de sequências visuais, Ultralytics oferece um desempenho líder no setor sem a enorme sobrecarga computacional dos transformadores baseados exclusivamente em atenção.

from ultralytics import YOLO

# Load the recommended YOLO26 model for high-speed object tracking
model = YOLO("yolo26n.pt")

# Perform robust multi-object tracking on a long video sequence
results = model.track(source="long_surveillance_feed.mp4", stream=True)

# Iterate through the stream to process temporal tracking data
for frame_result in results:
    print(f"Tracked {len(frame_result.boxes)} objects in current frame.")

Ao desenvolver e escalar estas soluções complexas de deteção de objetos e segmentação de imagens, a gestão da orquestração de hardware é fundamental. A Ultralytics simplifica totalmente este processo, oferecendo ferramentas para treino na nuvem sem interrupções, anotação automatizada de conjuntos de dados e implementação de modelos com um único clique em vários ambientes de hardware. A utilização destas plataformas garante que as técnicas de escalabilidade de ponta passem suavemente da investigação para pipelines de IA escaláveis e prontos para produção.

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina