Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Transformer

Scopri come le architetture Transformer rivoluzionano l'IA, potenziando le scoperte nel NLP, nella computer vision e nelle attività avanzate di ML.

Un Transformer è un'architettura di rete neurale rivoluzionaria che è diventata una pietra angolare della moderna Intelligenza Artificiale (IA), specialmente nell' Elaborazione del Linguaggio Naturale (NLP) e, più recentemente, nella Computer Vision (CV). Introdotta dai ricercatori di Google nel documento del 2017 "Attention Is All You Need", la sua innovazione chiave è il meccanismo di auto-attenzione, che consente al modello di valutare l'importanza di diverse parole o parti di una sequenza di input. Questo gli permette di catturare dipendenze a lungo raggio e relazioni contestuali in modo più efficace rispetto alle architetture precedenti. Il design consente anche una massiccia parallelizzazione, rendendo possibile l'addestramento di modelli molto più grandi su dataset enormi, portando all'ascesa dei Large Language Models (LLM).

Come funzionano i Transformer

A differenza dei modelli sequenziali come le reti neurali ricorrenti (RNN), i Transformer elaborano intere sequenze di dati contemporaneamente. L'idea principale è quella di gestire tutti gli elementi in parallelo, il che accelera significativamente l'addestramento su hardware moderno come le GPU.

Per comprendere l'ordine della sequenza senza ricorrenza, i Transformer utilizzano una tecnica chiamata positional encoding, che aggiunge informazioni sulla posizione di ogni elemento (ad esempio, una parola in una frase) al suo embedding. I livelli di self-attention elaborano quindi questi embedding, consentendo a ogni elemento di "guardare" ogni altro elemento nella sequenza e determinare quali sono più rilevanti per comprenderne il significato. Questa consapevolezza del contesto globale è un grande vantaggio per compiti complessi. Framework come PyTorch e TensorFlow forniscono un ampio supporto per la creazione di modelli basati su Transformer.

Applicazioni dei Transformer

L'impatto dei Transformer si estende a numerosi domini, guidando il progresso sia nelle attività di linguaggio che di visione.

  1. Traduzione e generazione di lingue: Servizi come Google Translate utilizzano modelli basati su Transformer per una traduzione automatica di alta qualità. Il modello può considerare l'intera frase di origine per produrre una traduzione più fluida e accurata. Allo stesso modo, modelli come GPT-4 eccellono nella generazione di testo comprendendo il contesto per creare paragrafi coerenti, scrivere articoli o alimentare chatbot avanzati.
  2. Computer Vision: Il Vision Transformer (ViT) adatta l'architettura per attività basate su immagini. Tratta un'immagine come una sequenza di patch e utilizza l'auto-attenzione per modellare le relazioni tra di esse. Questo approccio viene utilizzato in modelli come RT-DETR per il rilevamento di oggetti, dove la comprensione del contesto globale di una scena può aiutare a identificare gli oggetti in modo più accurato, specialmente in ambienti affollati. Puoi vedere un confronto tra RT-DETR e YOLOv8 per comprendere le loro differenze architetturali.

Transformer contro altre architetture

È utile distinguere i Transformer da altre architetture comuni di reti neurali:

  • Transformer vs. RNN: Le RNN elaborano i dati in modo sequenziale, il che le rende intrinsecamente lente e suscettibili al problema del gradiente che svanisce, facendole dimenticare le informazioni precedenti nelle sequenze lunghe. I Transformer superano questo problema con l'elaborazione parallela e l'auto-attenzione, catturando le dipendenze a lungo raggio in modo molto più efficace.
  • Transformer vs. CNN: Le reti neurali convoluzionali (CNN) sono altamente efficienti per le attività di visione artificiale, utilizzando filtri convoluzionali per identificare pattern locali in dati strutturati a griglia come i pixel. Sono alla base di modelli come la famiglia Ultralytics YOLO. I Transformer, al contrario, catturano le relazioni globali ma spesso richiedono più dati e risorse di calcolo. I modelli ibridi, che combinano un backbone CNN con livelli Transformer, mirano a ottenere il meglio da entrambi i mondi.

Varianti efficienti di Transformer

Il costo computazionale della self-attention completa del Transformer originale cresce quadraticamente con la lunghezza della sequenza, rendendolo impegnativo per sequenze molto lunghe. Ciò ha portato allo sviluppo di varianti più efficienti.

  • Longformer: Utilizza un meccanismo di attenzione a finestra scorrevole combinato con l'attenzione globale su token specifici per ridurre la complessità computazionale.
  • Reformer: Impiega tecniche come l'hashing locality-sensitive per approssimare l'attenzione completa, rendendolo più efficiente in termini di memoria.
  • Transformer-XL: Introduce un meccanismo di ricorrenza che consente al modello di apprendere dipendenze oltre una lunghezza fissa, il che è particolarmente utile per la modellazione del linguaggio auto-regressiva.

Questi progressi continuano a espandere l'applicabilità dei Transformer a nuovi problemi. Strumenti e piattaforme come Hugging Face e Ultralytics HUB semplificano l'accesso e il deployment di questi potenti modelli per gli sviluppatori.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti