Scopri come Ring Attention estende i Transformers a sequenze di lunghezza infinita. Scopri come questa tecnica ottimizza i modelli di linguaggio di grandi dimensioni (LLM) e i Vision Transformers per l'elaborazione di enormi quantità di dati.
Ring Attention è una tecnica avanzata di apprendimento automatico (ML) progettata per estendere la finestra di contesto delle architetture Transformer a sequenze di lunghezza praticamente infinita. Distribuendo il complesso calcolo dell'attenzione su un cluster di GPU collegate in una topologia ad anello , essa sovrappone efficacemente la comunicazione al calcolo. Questa innovazione architettonica consente ai modelli linguistici di grandi dimensioni (LLM) e ai Vision Transformer (ViT) di elaborare input massicci — come interi libri o ore di video ininterrotti — che superano di gran lunga la capacità di memoria di qualsiasi singolo dispositivo hardware .
Nei meccanismi standard di auto-attenzione, il consumo di memoria cresce in modo quadratico con la lunghezza della sequenza di input. Ciò crea un grave collo di bottiglia per i modelli di deep learning (DL) che cercano di analizzare dati di lunga durata. Per saperne di più su come la comunità dell'IA affronta questo problema, puoi consultare il lavoro del Berkeley AI Research sui modelli a contesto esteso.
Ring Attention risolve questo collo di bottiglia quadratico suddividendo le query, le chiavi e i valori in blocchi più piccoli. GPU rete distribuita elabora un blocco e poi trasmette le chiavi e i valori al dispositivo adiacente nell' anello. Questo trasferimento ciclico prosegue fino a quando non viene calcolato l'intero meccanismo di attenzione. L'utilizzo di strumenti come il pacchetto di comunicazionePyTorch consente agli sviluppatori di realizzare queste sofisticate pipeline di addestramento multi-dispositivo.
Sebbene entrambe le tecniche ottimizzino l'utilizzo della memoria, operano a livelli diversi. Flash Attention è un algoritmo ottimizzato per l'hardware che riduce al minimo le costose operazioni di lettura e scrittura nella SRAM GPU singola GPU. Al contrario, Ring Attention è un algoritmo distribuito incentrato sulla scalabilità del calcolo su più GPU. Nei flussi di lavoro di IA generativa all'avanguardia, queste due tecniche vengono spesso combinate per ottenere sia un'efficienza hardware localizzata sia una scalabilità massiccia su più dispositivi, come descritto in dettaglio nel documento di ricerca originale su Ring Attention pubblicato su arXiv.
La capacità di elaborare milioni di token contemporaneamente sblocca potenti funzionalità nell'intelligenza artificiale moderna:
Mentre i modelli di attenzione distribuita su larga scala gestiscono una quantità infinita di contesti, le applicazioni pratiche orientate all’edge richiedono architetture altamente ottimizzate. Per l’ inferenza in tempo reale e l’elaborazione di sequenze visive, Ultralytics offre prestazioni leader del settore senza l’enorme sovraccarico computazionale dei trasformatori basati esclusivamente sull’attenzione.
from ultralytics import YOLO
# Load the recommended YOLO26 model for high-speed object tracking
model = YOLO("yolo26n.pt")
# Perform robust multi-object tracking on a long video sequence
results = model.track(source="long_surveillance_feed.mp4", stream=True)
# Iterate through the stream to process temporal tracking data
for frame_result in results:
print(f"Tracked {len(frame_result.boxes)} objects in current frame.")
Quando si sviluppano e si scalano queste complesse soluzioni di rilevamento di oggetti e segmentazione delle immagini, la gestione dell’orchestrazione dell’hardware è fondamentale. La Ultralytics semplifica completamente questo processo, offrendo strumenti per l’addestramento senza soluzione di continuità nel cloud, l’annotazione automatizzata dei set di dati e la distribuzione dei modelli con un solo clic su diversi ambienti hardware. L’utilizzo di queste piattaforme garantisce che le tecniche di scalabilità all’avanguardia passino senza intoppi dalla fase di ricerca a pipeline di IA scalabili e pronte per la produzione.

Inizia il tuo viaggio con il futuro del machine learning