Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Attenzione all'anello

Scopri come Ring Attention estende i Transformers a sequenze di lunghezza infinita. Scopri come questa tecnica ottimizza i modelli di linguaggio di grandi dimensioni (LLM) e i Vision Transformers per l'elaborazione di enormi quantità di dati.

Ring Attention è una tecnica avanzata di apprendimento automatico (ML) progettata per estendere la finestra di contesto delle architetture Transformer a sequenze di lunghezza praticamente infinita. Distribuendo il complesso calcolo dell'attenzione su un cluster di GPU collegate in una topologia ad anello , essa sovrappone efficacemente la comunicazione al calcolo. Questa innovazione architettonica consente ai modelli linguistici di grandi dimensioni (LLM) e ai Vision Transformer (ViT) di elaborare input massicci — come interi libri o ore di video ininterrotti — che superano di gran lunga la capacità di memoria di qualsiasi singolo dispositivo hardware .

Superare l'ostacolo della finestra di contesto

Nei meccanismi standard di auto-attenzione, il consumo di memoria cresce in modo quadratico con la lunghezza della sequenza di input. Ciò crea un grave collo di bottiglia per i modelli di deep learning (DL) che cercano di analizzare dati di lunga durata. Per saperne di più su come la comunità dell'IA affronta questo problema, puoi consultare il lavoro del Berkeley AI Research sui modelli a contesto esteso.

Ring Attention risolve questo collo di bottiglia quadratico suddividendo le query, le chiavi e i valori in blocchi più piccoli. GPU rete distribuita elabora un blocco e poi trasmette le chiavi e i valori al dispositivo adiacente nell' anello. Questo trasferimento ciclico prosegue fino a quando non viene calcolato l'intero meccanismo di attenzione. L'utilizzo di strumenti come il pacchetto di comunicazionePyTorch consente agli sviluppatori di realizzare queste sofisticate pipeline di addestramento multi-dispositivo.

Attenzione suscitata dal suono vs. attenzione suscitata dal lampo

Sebbene entrambe le tecniche ottimizzino l'utilizzo della memoria, operano a livelli diversi. Flash Attention è un algoritmo ottimizzato per l'hardware che riduce al minimo le costose operazioni di lettura e scrittura nella SRAM GPU singola GPU. Al contrario, Ring Attention è un algoritmo distribuito incentrato sulla scalabilità del calcolo su più GPU. Nei flussi di lavoro di IA generativa all'avanguardia, queste due tecniche vengono spesso combinate per ottenere sia un'efficienza hardware localizzata sia una scalabilità massiccia su più dispositivi, come descritto in dettaglio nel documento di ricerca originale su Ring Attention pubblicato su arXiv.

Applicazioni nel mondo reale

La capacità di elaborare milioni di token contemporaneamente sblocca potenti funzionalità nell'intelligenza artificiale moderna:

  1. Analisi completa di documenti e codice sorgente: Ring Attention consente ai modelli di elaborare milioni di righe di codice o complesse raccolte di testi giuridici con un unico prompt. Ciò migliora notevolmente le prestazioni dei sistemi basati sulla tecnologia RAG (Retrieval Augmented Generation), consentendo loro di sintetizzare il contesto senza tralasciare informazioni fondamentali. Questo concetto è alla base dei modelli contestuali su larga scala come l'architettura GeminiGoogle.
  2. Comprensione avanzata dei video: nella visione artificiale (CV), l'elaborazione di sequenze video ad alta risoluzione richiede solitamente un forte ridimensionamento. Ring Attention consente ai modelli di analizzare flussi video non compressi della durata di un'ora. Ciò migliora il riconoscimento delle azioni e il tracciamento continuo degli oggetti nei sistemi di sicurezza e di guida autonoma, mantenendo la consapevolezza temporale su lunghi periodi di tempo.

Elaborazione di sequenze video

Mentre i modelli di attenzione distribuita su larga scala gestiscono una quantità infinita di contesti, le applicazioni pratiche orientate all’edge richiedono architetture altamente ottimizzate. Per l’ inferenza in tempo reale e l’elaborazione di sequenze visive, Ultralytics offre prestazioni leader del settore senza l’enorme sovraccarico computazionale dei trasformatori basati esclusivamente sull’attenzione.

from ultralytics import YOLO

# Load the recommended YOLO26 model for high-speed object tracking
model = YOLO("yolo26n.pt")

# Perform robust multi-object tracking on a long video sequence
results = model.track(source="long_surveillance_feed.mp4", stream=True)

# Iterate through the stream to process temporal tracking data
for frame_result in results:
    print(f"Tracked {len(frame_result.boxes)} objects in current frame.")

Quando si sviluppano e si scalano queste complesse soluzioni di rilevamento di oggetti e segmentazione delle immagini, la gestione dell’orchestrazione dell’hardware è fondamentale. La Ultralytics semplifica completamente questo processo, offrendo strumenti per l’addestramento senza soluzione di continuità nel cloud, l’annotazione automatizzata dei set di dati e la distribuzione dei modelli con un solo clic su diversi ambienti hardware. L’utilizzo di queste piattaforme garantisce che le tecniche di scalabilità all’avanguardia passino senza intoppi dalla fase di ricerca a pipeline di IA scalabili e pronte per la produzione.

Costruiamo insieme il futuro dell'intelligenza artificiale!

Inizia il tuo viaggio con il futuro del machine learning