Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Vision Transformer (ViT)

Esplora la potenza dei Vision Transformer (ViT). Scopri come la self-attention e la tokenizzazione dei patch rivoluzionano la computer vision oltre le CNN con Ultralytics.

Un Vision Transformer (ViT) è un'architettura di deep learning che adatta i meccanismi di self-attention originariamente progettati per il Natural Language Processing (NLP) alla risoluzione di attività visive. A differenza di una tradizionale Convolutional Neural Network (CNN), che elabora le immagini attraverso una gerarchia di griglie di pixel locali, un ViT tratta un'immagine come una sequenza di patch discrete. Questo approccio è stato reso popolare dal fondamentale documento di ricerca "An Image is Worth 16x16 Words", che ha dimostrato come le architetture transformer pure possano raggiungere prestazioni all'avanguardia nella computer vision (CV) senza fare affidamento su strati di convoluzione. Sfruttando l'attention globale, i ViT sono in grado di catturare dipendenze a lungo raggio nell'intera immagine fin dal primo strato.

Link to this sectionCome funzionano i Vision Transformer#

L'innovazione fondamentale del ViT è il modo in cui struttura i dati di input. Per rendere un'immagine compatibile con un Transformer standard, il modello scompone le informazioni visive in una sequenza di vettori, imitando il modo in cui un modello linguistico elabora una frase composta da parole.

  1. Tokenizzazione delle patch: L'immagine di input viene suddivisa in una griglia di quadrati di dimensioni fisse, tipicamente 16x16 pixel. Ogni quadrato viene appiattito in un vettore, diventando effettivamente un token visivo.

  2. Proiezione lineare: Queste patch appiattite vengono fatte passare attraverso uno strato lineare addestrabile per creare embeddings densi. Questo passaggio mappa i valori grezzi dei pixel in uno spazio ad alta dimensionalità che il modello può elaborare.

  3. Codifica posizionale: Poiché l'architettura elabora le sequenze in parallelo e manca di una comprensione intrinseca dell'ordine o dello spazio, vengono aggiunte positional encodings apprendibili agli embeddings delle patch. Ciò consente al modello di mantenere le informazioni spaziali su dove ogni patch si trovi nell'immagine originale.

  4. Meccanismo di Self-Attention: La sequenza entra nel Transformer encoder, dove la self-attention permette a ogni patch di interagire con tutte le altre contemporaneamente. Ciò consente alla rete di apprendere il contesto globale, comprendendo come un pixel nell'angolo in alto a sinistra si relaziona a uno nell'angolo in basso a destra.

  5. Testa di classificazione: Per attività come l'image classification, un "class token" speciale viene spesso anteposto alla sequenza. Lo stato di output finale di questo token funge da rappresentazione aggregata dell'immagine, che viene poi immessa in un classificatore, come un multilayer perceptron (MLP).

Link to this sectionVision Transformer vs CNN#

Sebbene entrambe le architetture mirino a comprendere i dati visivi, differiscono significativamente nella loro filosofia operativa. Le CNN possiedono un forte "bias induttivo" noto come invarianza alla traslazione, il che significa che presumono intrinsecamente che le caratteristiche locali (come bordi e texture) siano importanti indipendentemente dalla loro posizione. Questo rende le CNN altamente efficienti in termini di dati ed efficaci su datasets più piccoli.

Al contrario, i Vision Transformer hanno meno bias specifici per l'immagine. Devono apprendere le relazioni spaziali da zero utilizzando enormi quantità di training data, come i dataset JFT-300M o l'intero ImageNet. Sebbene ciò renda l'addestramento computazionalmente più intensivo, consente ai ViT di scalare notevolmente bene; con dati sufficienti e compute power, possono superare le CNN catturando strutture globali complesse che le convoluzioni locali potrebbero mancare.

Link to this sectionApplicazioni nel mondo reale#

La capacità di comprendere il contesto globale rende i ViT particolarmente utili per ambienti complessi e ad alto rischio.

  • Analisi di immagini mediche: Nell'healthcare AI, i ViT sono utilizzati per analizzare scansioni ad alta risoluzione come risonanze magnetiche o vetrini istopatologici. Ad esempio, nel tumor detection, un ViT può correlare sottili anomalie strutturali nei tessuti con cambiamenti strutturali più ampi attraverso il vetrino, identificando pattern maligni che l'elaborazione locale potrebbe trascurare.
  • Immagini satellitari e telerilevamento: I ViT eccellono nell'satellite image analysis, dove le relazioni tra gli oggetti si estendono su grandi distanze. Ad esempio, collegare un sito di deforestazione a una lontana strada forestale richiede la comprensione del "quadro generale" di un paesaggio, un compito in cui l'attenzione globale di un ViT supera il limitato campo ricettivo delle CNN standard.

Link to this sectionUtilizzare i Transformer con Ultralytics#

La libreria ultralytics supporta architetture basate su Transformer, in particolare il RT-DETR (Real-Time Detection Transformer). Sebbene il modello di punta YOLO26 sia spesso preferito per il suo equilibrio tra velocità e precisione su dispositivi edge, RT-DETR offre una potente alternativa per gli scenari che danno priorità al contesto globale.

Il seguente esempio in Python mostra come caricare un modello basato su Transformer pre-addestrato ed eseguire l'inferenza:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Link to this sectionProspettive future#

La ricerca si sta evolvendo rapidamente per affrontare l'elevato costo computazionale dei ViT. Tecniche come FlashAttention stanno rendendo questi modelli più veloci ed efficienti in termini di memoria. Inoltre, stanno diventando comuni architetture ibride che combinano l'efficienza delle CNN con l'attention dei Transformer. Per i team che cercano di gestire questi flussi di lavoro avanzati, l'Ultralytics Platform offre un ambiente unificato per annotare dati, addestrare modelli complessi tramite il cloud e distribuirli su diversi endpoint.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning