Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Longformer

Scopri Longformer, il modello transformer ottimizzato per sequenze lunghe, che offre un'efficienza scalabile per NLP, genomica e analisi video.

Longformer è un modello avanzato basato su Transformer progettato per elaborare in modo efficiente documenti molto lunghi. Sviluppato dai ricercatori dell'Allen Institute for AI, la sua principale innovazione è un meccanismo di attenzione che scala linearmente con la lunghezza della sequenza, a differenza della scalabilità quadratica dei modelli Transformer standard come BERT. Questa efficienza rende possibile eseguire complesse attività di elaborazione del linguaggio naturale (NLP) su testi contenenti migliaia o addirittura decine di migliaia di token, il che è computazionalmente proibitivo per le architetture precedenti.

Come funziona Longformer

Il nucleo dell'efficienza di Longformer risiede nel suo esclusivo schema di attenzione, che sostituisce il meccanismo di auto-attenzione completo di un Transformer standard. Invece che ogni token presti attenzione a ogni altro token, Longformer combina due tipi di attenzione:

  • Attenzione a finestra scorrevole (locale): La maggior parte dei token presta attenzione solo a un numero fisso di token vicini su entrambi i lati. Questo cattura il contesto locale, in modo simile a come un lettore umano comprende le parole in base alle parole che le circondano immediatamente. Questo approccio è ispirato dal successo delle reti neurali convoluzionali (CNN) nello sfruttare i pattern locali.
  • Global Attention (Attenzione globale): Un piccolo numero di token preselezionati sono designati per avere un'attenzione globale, il che significa che possono prestare attenzione a tutti gli altri token nell'intera sequenza. Questi token "globali" fungono da raccoglitori di informazioni di alto livello provenienti dall'intero documento. Per compiti specifici fine-tuning, questi token globali vengono spesso scelti strategicamente, come ad esempio il [CLS] token per attività di classificazione.

Questa combinazione fornisce un equilibrio tra l'efficienza computazionale e l'acquisizione delle dipendenze a lungo raggio necessarie per la comprensione di documenti complessi. La ricerca originale è descritta in dettaglio nel documento "Longformer: The Long-Document Transformer".

Applicazioni nell'AI e nel Machine Learning

La capacità di Longformer di gestire sequenze lunghe apre possibilità per molte applicazioni che prima erano impraticabili.

  • Analisi di documenti lunghi: Può eseguire attività come il riepilogo del testo o la risposta a domande su interi libri, lunghi documenti di ricerca o complessi documenti legali. Ad esempio, una società di tecnologia legale potrebbe utilizzare un modello basato su Longformer per scansionare automaticamente migliaia di pagine di documenti di scoperta per trovare prove pertinenti.
  • Sistemi di dialogo e chatbot: In un contesto di chatbot o assistente virtuale, Longformer può mantenere una cronologia di conversazioni molto più lunga, portando a interazioni più coerenti e consapevoli del contesto per periodi prolungati.
  • Genomica e bioinformatica: La sua architettura è adatta per l'analisi di lunghe sequenze di DNA o proteine, aiutando i ricercatori a identificare modelli e funzioni all'interno di vasti set di dati genetici. Un laboratorio di ricerca potrebbe applicarlo per trovare sequenze geniche specifiche all'interno di un intero cromosoma.

I modelli Longformer pre-addestrati sono ampiamente disponibili su piattaforme come Hugging Face, consentendo agli sviluppatori di adattarli a vari task.

Confronto con termini correlati

Longformer è uno dei diversi modelli progettati per superare i limiti dei Transformer standard per sequenze lunghe.

  • Transformer Standard: La differenza fondamentale è il meccanismo di attenzione. Il pattern di attenzione efficiente di Longformer è progettato per sequenze lunghe, mentre la self-attention completa nei Transformer standard è troppo intensiva in termini di memoria e calcolo per input lunghi.
  • Reformer: Un altro Transformer efficiente, Reformer utilizza tecniche come l'attenzione locality-sensitive hashing (LSH) e i layer reversibili per ridurre l'utilizzo delle risorse. Mentre entrambi mirano a sequenze lunghe, impiegano diverse strategie tecniche per raggiungere l'efficienza.
  • Transformer-XL: Questo modello introduce la ricorrenza e gli embedding posizionali relativi per gestire contesti più lunghi, rendendolo particolarmente efficace per task auto-regressivi come la generazione di testo. Longformer, al contrario, è progettato per elaborare un singolo documento lungo con un contesto bidirezionale in un unico passaggio.

Sebbene questi modelli NLP differiscano dai modelli di computer vision (CV) come Ultralytics YOLO, che eccellono in attività come il rilevamento di oggetti, la spinta verso l'efficienza computazionale è un tema condiviso. Le innovazioni che riducono la complessità, come quelle in Longformer, sono fondamentali per rendere i potenti modelli di deep learning pratici per l'inferenza in tempo reale e il deployment dei modelli su hardware diversi. La gestione di modelli così avanzati può essere semplificata utilizzando piattaforme come Ultralytics HUB.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti