Transformer
Esplora l'architettura Transformer e il meccanismo di self-attention. Scopri come alimentano modelli IA come RT-DETR e Ultralytics YOLO26 per una precisione superiore.
Un Transformer è un'architettura di deep learning che si basa su un meccanismo chiamato self-attention per elaborare dati di input sequenziali, come il linguaggio naturale o le caratteristiche visive. Introdotto originariamente dai ricercatori di Google nel fondamentale articolo Attention Is All You Need, il Transformer ha rivoluzionato il campo dell'intelligenza artificiale (AI) eliminando i limiti dell'elaborazione sequenziale delle precedenti Reti Neurali Ricorrenti (RNN). Al contrario, i Transformer analizzano intere sequenze di dati simultaneamente, consentendo una massiccia parallelizzazione e tempi di addestramento significativamente più rapidi su hardware moderno come le GPU.
Link to this sectionCome funzionano i Transformer#
L'innovazione principale del Transformer è il meccanismo di self-attention. Questo permette al modello di pesare l'importanza di diverse parti dei dati di input l'una rispetto all'altra. Ad esempio, in una frase, il modello può imparare che la parola "bank" è più strettamente correlata a "money" rispetto a "river" in base al contesto circostante.
Questa architettura è generalmente composta da due componenti principali:
- Encoder: Elabora i dati di input in una ricca rappresentazione numerica o embedding.
- Decoder: Utilizza l'output dell'encoder per generare il risultato finale, come una frase tradotta o una bounding box predetta.
Nell'ambito della computer vision (CV), i modelli solitamente impiegano una variante chiamata Vision Transformer (ViT). Invece di elaborare token testuali, l'immagine viene suddivisa in patch di dimensioni fisse (es. 16x16 pixel). Queste patch vengono appiattite e trattate come una sequenza, consentendo al modello di catturare il "contesto globale"—comprendendo le relazioni tra parti distanti di un'immagine—più efficacemente di una standard Convolutional Neural Network (CNN).
Link to this sectionTransformer vs Concetti correlati#
È importante distinguere l'architettura Transformer da termini correlati:
- Meccanismo di attenzione: Questo è il concetto generale di concentrarsi su parti specifiche dei dati. Il Transformer è una specifica architettura costruita interamente attorno a layer di attenzione, mentre altri modelli potrebbero utilizzare l'attenzione solo come un piccolo componente aggiuntivo.
- Large Language Model (LLM): Termini come "GPT" si riferiscono a modelli specifici addestrati su vaste quantità di testo. Quasi tutti i moderni LLM utilizzano l'architettura Transformer come motore sottostante.
Link to this sectionApplicazioni nel mondo reale#
La versatilità dei Transformer ha portato alla loro adozione in vari settori:
-
Imaging medico: Nell'AI in sanità, i Transformer sono utilizzati per attività complesse come l'analisi delle immagini mediche. La loro capacità di comprendere le relazioni spaziali globali aiuta a rilevare sottili anomalie in scansioni MRI o CT ad alta risoluzione che le CNN focalizzate sulle caratteristiche locali potrebbero perdere.
-
Sistemi autonomi: Per i veicoli autonomi, comprendere la traiettoria di pedoni e altri veicoli è fondamentale. I Transformer eccellono nella comprensione video tracciando oggetti attraverso i frame temporali, prevedendo i movimenti futuri per garantire una navigazione sicura.
Link to this sectionRilevamento oggetti con i Transformer#
Sebbene le CNN abbiano tradizionalmente dominato il rilevamento oggetti, modelli basati su Transformer come il Real-Time Detection Transformer (RT-DETR) sono emersi come potenti alternative. RT-DETR combina la velocità delle backbone CNN con la precisione delle head di decodifica dei Transformer.
Tuttavia, i modelli Transformer puri possono essere computazionalmente pesanti. Per molte applicazioni edge, modelli ibridi altamente ottimizzati come YOLO26—che integrano efficienti meccanismi di attenzione con una rapida elaborazione convoluzionale—offrono un bilanciamento superiore tra velocità e precisione. Puoi gestire facilmente l'addestramento e il deployment di questi modelli tramite la Ultralytics Platform, che semplifica il flusso di lavoro dall'annotazione del dataset all'esportazione del modello.
Link to this sectionEsempio Python: Utilizzo di RT-DETR#
Il seguente esempio dimostra come eseguire l'inferenza utilizzando un modello basato su Transformer all'interno del pacchetto ultralytics. Questo codice carica un modello RT-DETR pre-addestrato e rileva oggetti in un'immagine.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()Per ulteriori letture sui fondamenti matematici, la documentazione di PyTorch sui layer Transformer fornisce approfondimenti tecnici, mentre la guida di IBM ai Transformer offre una prospettiva di business di alto livello.






