Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Longformer

Esplora l'architettura Longformer per elaborare in modo efficiente lunghe sequenze di dati. Scopri come la sparse attention supera i limiti di memoria per l'NLP e la Computer Vision.

Il Longformer è un tipo specializzato di architettura di Deep Learning progettata per elaborare lunghe sequenze di dati in modo efficiente, superando i limiti dei modelli tradizionali. Introdotto originariamente per affrontare i vincoli dei Transformer standard, che solitamente hanno difficoltà con sequenze superiori a 512 token a causa di restrizioni di memoria, il Longformer impiega un meccanismo di attenzione modificato. Riducendo la complessità computazionale da quadratica a lineare, questa architettura consente ai sistemi AI di analizzare interi documenti, trascrizioni prolisse o complesse sequenze genetiche in un'unica passata senza troncare l'input.

Link to this sectionIl problema del collo di bottiglia dell'attenzione#

Per comprendere l'importanza del Longformer, è essenziale osservare le limitazioni di predecessori come BERT e i primi modelli GPT-3. I transformer standard utilizzano un'operazione di "self-attention" in cui ogni token (parola o parte di parola) presta attenzione a ogni altro token nella sequenza. Ciò crea un costo computazionale quadratico; raddoppiare la lunghezza della sequenza quadruplica la memoria richiesta sulla GPU. Di conseguenza, la maggior parte dei modelli standard impone un limite rigoroso sulla dimensione dell'input, spesso costringendo i data scientist a suddividere i documenti in segmenti più piccoli e sconnessi, il che porta a una perdita di contesto.

Il Longformer risolve questo problema introducendo la Sparse Attention. Invece di una connessione completa all-to-all, utilizza una combinazione di attenzione locale a finestra e attenzione globale:

  • Sliding Window Attention: Ogni token presta attenzione solo ai suoi vicini immediati. Questo cattura il contesto locale e la struttura sintattica, in modo simile a come una Convolutional Neural Network (CNN) elabora le immagini.
  • Dilated Sliding Window: Per aumentare il campo ricettivo senza aumentare il calcolo, la finestra può incorporare spazi vuoti, consentendo al modello di vedere "più lontano" nel testo.
  • Global Attention: Token pre-selezionati specifici (come il token di classificazione [CLS]) prestano attenzione a tutti gli altri token nella sequenza, e tutti i token prestano attenzione a essi. Ciò garantisce che il modello mantenga una comprensione di alto livello dell'intero input per attività come la text summarization.

Link to this sectionApplicazioni nel mondo reale#

La capacità di elaborare migliaia di token simultaneamente apre nuove possibilità per la Natural Language Processing (NLP) e oltre.

Link to this section1. Analisi di documenti legali e medici#

In settori come quello legale e sanitario, i documenti raramente sono brevi. Un contratto legale o la storia medica di un paziente possono coprire dozzine di pagine. I Large Language Models (LLMs) tradizionali richiederebbero che questi documenti vengano frammentati, perdendo potenzialmente dipendenze cruciali tra una clausola a pagina 1 e una definizione a pagina 30. Il Longformer consente la Named Entity Recognition (NER) e la classificazione sull'intero documento in una volta sola, assicurando che il contesto globale influenzi l'interpretazione di termini specifici.

Link to this section2. Long-Form Question Answering (QA)#

I sistemi di Question Answering standard spesso faticano quando la risposta a una domanda richiede la sintesi di informazioni distribuite in un lungo articolo. Mantenendo il testo completo in memoria, i modelli basati su Longformer possono eseguire ragionamenti multi-hop, collegando fatti trovati in paragrafi diversi per generare una risposta completa. Questo è fondamentale per i sistemi di supporto tecnico automatizzati e gli strumenti di ricerca accademica.

Link to this sectionDifferenziare i termini chiave#

  • Longformer vs. Transformer: Il Transformer standard utilizza l'attenzione completa $N^2$, rendendolo preciso ma computazionalmente costoso per input lunghi. Il Longformer utilizza l'attenzione sparsa $N$, scambiando una quantità trascurabile di capacità teorica con enormi guadagni di efficienza, consentendo input di 4.096 token o più.
  • Longformer vs. Transformer-XL: Sebbene entrambi gestiscano lunghe sequenze, Transformer-XL si basa su un meccanismo di ricorrenza (memorizzazione di stati precedenti) per ricordare segmenti passati. Il Longformer elabora la lunga sequenza nativamente in un'unica volta, il che semplifica l'addestramento parallelo su piattaforme come la Ultralytics Platform.
  • Longformer vs. BigBird: Queste sono architetture molto simili sviluppate nello stesso periodo. Entrambe utilizzano meccanismi di attenzione sparsa per ottenere un ridimensionamento lineare. BigBird introduce uno specifico componente di attenzione casuale in aggiunta alle finestre scorrevoli.

Link to this sectionConcetti di implementazione#

Sebbene il Longformer sia un'architettura piuttosto che una funzione specifica, capire come preparare i dati per modelli a contesto lungo è cruciale. In framework moderni come PyTorch, ciò spesso comporta la gestione di embeddings che superano i limiti standard.

Il seguente esempio mostra la creazione di un tensore di input fittizio per uno scenario a contesto lungo, contrapponendolo alla dimensione tipica utilizzata nei modelli di rilevamento standard come YOLO26.

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

Link to this sectionRilevanza per la Computer Vision#

Sebbene originariamente progettati per il testo, i principi alla base del Longformer hanno influenzato la Computer Vision. Il concetto di limitare l'attenzione a un intorno locale è analogo alle operazioni localizzate nelle attività visive. I Vision Transformer (ViT) affrontano problemi di ridimensionamento simili con immagini ad alta risoluzione perché il numero di pixel (o patch) può essere enorme. Tecniche derivate dall'attenzione sparsa del Longformer vengono utilizzate per migliorare l'efficienza della image classification e dell'object detection, aiutando modelli come YOLO26 a mantenere velocità elevate durante l'elaborazione di dati visivi dettagliati.

Per ulteriori letture sulle specifiche architettoniche, il paper originale sul Longformer di AllenAI fornisce benchmark approfonditi e giustificazioni teoriche. Inoltre, l'addestramento efficiente di modelli così grandi spesso beneficia di tecniche come mixed precision e avanzati algoritmi di ottimizzazione.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning