Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Attention Sinks

Scopri come gli attention sink stabilizzano LLM e VLM per la generazione di sequenze infinite. Impara a ottimizzare la memoria e a implementare un'IA stabile con Ultralytics YOLO26.

Gli attention sink sono un fenomeno critico scoperto nell'architettura dei moderni large language models (LLMs) e dei vision-language models (VLMs) che garantisce stabilità durante la generazione continua di testo o dati di lunghezza estesa. In un attention mechanism, le reti neurali assegnano dinamicamente dei "pesi" a diverse parti dell'input. I ricercatori hanno osservato che i modelli autoregressivi scaricano intrinsecamente una enorme quantità di punteggi di attenzione in eccesso sui primissimi token di una sequenza, indipendentemente dal loro effettivo significato semantico. Questi token iniziali agiscono come un "attention sink", fornendo un'ancora matematica che impedisce ai punteggi di attenzione del modello di collassare. Mantenendo permanentemente questi token sink nella KV cache del modello, gli sviluppatori possono abilitare una generazione di sequenze infinita senza degradare l'accuratezza o subire crash dovuti ai limiti di memoria.

Link to this sectionCome gli Attention Sinks stabilizzano i modelli#

Il bisogno di attention sink nasce dall'operazione Softmax utilizzata nei Transformers. Poiché i punteggi di attenzione devono sempre sommare a 1, il modello ha bisogno di uno spazio in cui allocare l'attenzione non necessaria durante l'elaborazione di dati altamente localizzati. I primi token in un prompt assorbono naturalmente questo eccesso.

Storicamente, durante la generazione di sequenze molto lunghe, gli ingegneri utilizzavano tecniche di windowing che eliminavano i token più vecchi dalla memoria. Tuttavia, rimuovere i token sink iniziali causava un immediato collasso delle prestazioni. Le implementazioni moderne, come StreamingLLM, conservano esplicitamente questi token iniziali insieme ai token più recenti. Questo approccio altamente ottimizzato alla gestione della memoria è attivamente esplorato negli OpenAI vision developments e nella Google DeepMind research, ed è supportato nativamente all'interno dell'PyTorch ecosystem.

Link to this sectionDifferenziare concetti di attenzione correlati#

Per comprendere appieno come i modelli AI ottimizzano il contesto, è utile confrontare gli attention sink con altre strategie di memoria e hardware:

  • Attention Sinks vs. Sliding Window Attention: La Sliding Window Attention limita il focus del modello a un numero fisso di token recenti per risparmiare memoria. Tuttavia, le finestre scorrevoli rigide scartano i primi token, portando a instabilità. Gli attention sink modificano questo approccio ancorando la finestra con quei cruciali primi token.
  • Attention Sinks vs. Flash Attention: Flash Attention è un'ottimizzazione a livello hardware che velocizza le letture e le scritture di memoria sulla GPU. Gli attention sink, al contrario, sono una scoperta architetturale riguardo a quali token devono essere preservati in memoria per mantenere la stabilità logica.

Link to this sectionApplicazioni nel mondo reale#

La scoperta degli attention sink ha sbloccato capacità di elaborazione continue e altamente efficienti in diversi settori.

  1. AI Agent continui e Chatbot: Mantenendo gli attention sink, un AI agent o un bot di assistenza clienti può trasmettere dialoghi ininterrotti per ore. Dimentica selettivamente i token intermedi pur conservando il sink iniziale e il contesto recente, evitando errori di memoria insufficiente (out-of-memory) e preservando la coerenza conversazionale.

  2. Comprensione Video in Tempo Reale: Nella smart surveillance e nel monitoraggio continuo, mantenere una finestra di contesto stabile è fondamentale. I modelli possono analizzare feed video continui per giorni, eguagliando l'efficienza delle architetture di visione ottimizzate per l'edge.

Link to this sectionImplementazione di un'inferenza continua efficiente#

Mentre gli attention sink ottimizzano principalmente modelli generativi massivi, applicare loop di inferenza efficienti e attenti alla memoria è universalmente importante nella computer vision (CV). Quando elabori flussi video continui con Ultralytics YOLO26, sfruttare i generatori Python garantisce stabilità della memoria su lunghi periodi, in modo simile alla gestione di una finestra di contesto localizzata.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for efficient, real-time edge processing
model = YOLO("yolo26n.pt")

# Process a continuous video stream efficiently without memory overflow
results = model.predict(source="rtsp://continuous_camera_stream", stream=True)

# Iterate through the generator to maintain a stable memory footprint over time
for frame_result in results:
    print(f"Detected {len(frame_result.boxes)} objects in the current frame.")

Scalare queste pipeline di object detection continue ed efficienti per l'uso aziendale richiede strumenti di gestione robusti. Gli sviluppatori possono utilizzare la Ultralytics Platform per semplificare il model deployment e la gestione automatizzata dei dataset, permettendo ai team di costruire applicazioni di visione stabili e a lunga durata con facilità.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning