Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Flash Attention

Esplora come Flash Attention ottimizza la memoria e velocizza i modelli Transformer. Scopri come migliora la visione artificiale e perché Ultralytics YOLO26 è la scelta migliore.

Flash Attention è un algoritmo altamente ottimizzato progettato per velocizzare l'addestramento e l'inferenza di modelli Transformer gestendo l'accesso alla memoria in modo più efficiente. Nel moderno deep learning (DL), in particolare con modelli di grandi dimensioni, il principale collo di bottiglia non è spesso la velocità di calcolo del processore, ma il tempo necessario per spostare i dati tra l'archiviazione di memoria e le unità di calcolo. Flash Attention affronta questo "muro della memoria" riorganizzando il modo in cui i meccanismi di attenzione elaborano i dati, con il risultato di prestazioni più rapide e un minor utilizzo della memoria senza sacrificare l'accuratezza.

Link to this sectionCome funziona Flash Attention#

Per comprendere Flash Attention, è utile osservare l'architettura di una GPU (Graphics Processing Unit). Una GPU dispone di una memoria ad alta capacità ma più lenta, chiamata High Bandwidth Memory (HBM), e di una memoria su chip (SRAM) a bassa capacità ma incredibilmente veloce. Le implementazioni standard dell'attenzione leggono e scrivono ripetutamente matrici di grandi dimensioni sulla lenta HBM, il che crea un accumulo.

Flash Attention utilizza una tecnica chiamata "tiling" per suddividere la grande matrice di attenzione in blocchi più piccoli che si adattano interamente alla veloce SRAM. Mantenendo questi blocchi nella memoria veloce ed eseguendo più calcoli in quel contesto prima di scrivere il risultato, l'algoritmo riduce significativamente il numero di operazioni di lettura/scrittura verso la HBM. Questa innovazione, introdotta dai ricercatori della Stanford University, rende il processo "IO-aware", il che significa che tiene esplicitamente conto del costo dello spostamento dei dati. Puoi esplorare i dettagli tecnici nel paper di ricerca originale.

Link to this sectionDistinzione da termini correlati#

È importante distinguere Flash Attention da concetti simili nel glossario dell'intelligenza artificiale (AI):

  • Standard Attention: L'implementazione tradizionale che calcola l'intera matrice di attenzione. È matematicamente identica a Flash Attention nell'output, ma spesso è più lenta e intensiva in termini di memoria perché non ottimizza l'IO della memoria.
  • Flash Attention: Un'ottimizzazione esatta dell'attenzione standard. Non approssima; fornisce esattamente gli stessi risultati numerici, solo significativamente più velocemente.
  • Sparse Attention: Una tecnica di approssimazione che ignora determinate connessioni per risparmiare potenza di calcolo. A differenza di Flash Attention, i metodi di sparse attention sacrificano un po' di precisione in cambio di velocità.

Link to this sectionRilevanza nella Computer Vision e in YOLO#

Sebbene sia stato originariamente sviluppato per il Natural Language Processing (NLP) per gestire lunghe sequenze di testo, Flash Attention è diventato critico nella computer vision (CV). Le immagini ad alta risoluzione creano sequenze massicce di dati quando elaborate dai Vision Transformers (ViT).

Questa tecnologia influenza lo sviluppo dei rilevatori di oggetti. Ad esempio, alcuni modelli sperimentali come il YOLO12 guidato dalla community hanno introdotto strati di attenzione che sfruttano questi principi. Tuttavia, le architetture basate puramente sull'attenzione possono soffrire di instabilità nell'addestramento e lentezza sulle CPU. Per la maggior parte delle applicazioni professionali, Ultralytics YOLO26 è lo standard raccomandato. YOLO26 utilizza un'architettura altamente ottimizzata che bilancia velocità e precisione per l'object detection e l'image segmentation end-to-end, evitando il sovraccarico spesso associato ai pesanti strati di attenzione sui dispositivi edge.

Link to this sectionApplicazioni nel mondo reale#

I guadagni in efficienza derivanti da Flash Attention consentono applicazioni che in precedenza erano troppo costose o lente da eseguire.

  1. Intelligenza artificiale generativa a contesto lungo: Nel mondo dei Large Language Models (LLMs) come GPT-4, Flash Attention consente al modello di "ricordare" enormi quantità di informazioni. Ciò abilita una massiccia context window, permettendo agli utenti di caricare interi libri o basi di codice legali per la text summarization senza che il modello si blocchi a causa dei limiti di memoria.

  2. Diagnostica medica ad alta risoluzione: Nell'analisi di immagini mediche, i dettagli contano. I patologi analizzano scansioni gigapixel di campioni di tessuto. Flash Attention permette ai modelli di elaborare queste immagini massicce alla loro risoluzione nativa, identificando minuscole anomalie come tumori cerebrali in fase iniziale senza ridimensionare l'immagine e perdere dati vitali.

Link to this sectionEsempio di codice#

Sebbene Flash Attention sia spesso un'ottimizzazione interna all'interno di librerie come PyTorch, puoi sfruttare facilmente i modelli basati sull'attenzione con Ultralytics. Il seguente snippet mostra come caricare un modello RT-DETR, che utilizza meccanismi di attenzione, per eseguire l'inferenza su un'immagine.

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model which utilizes transformer attention
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the number of detected objects
print(f"Detected {len(results[0].boxes)} objects.")

Utilizzando strumenti come l'Ultralytics Platform, gli sviluppatori possono addestrare e distribuire questi modelli sofisticati senza dover implementare manualmente complessi kernel GPU. La piattaforma gestisce l'infrastruttura, consentendo ai team di concentrarsi sulla cura di dataset di alta qualità e sull'interpretazione dei risultati.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning