Scopri la potenza dei Vision Transformer (ViT) nella computer vision. Scopri come superano le CNN catturando il contesto globale dell'immagine.
Un Trasformatore di Visione (ViT) è un'architettura di deep learning che applica architettura di apprendimento profondo che applica i principi del modello Transformer originale direttamente a sequenze di immagini. Originariamente introdotto per elaborazione del linguaggio naturale (NLP), Transformer ha rivoluzionato il campo utilizzando meccanismi che consentono al modello di pesare l'importanza di diverse parti dei dati in ingresso. parti dei dati in ingresso. Il ViT è stato proposto da Google Research nel documento "Un'immagine vale 16x16 parole" come alternativa al modello standard rete neurale convoluzionale (CNN) per compiti visivi. A differenza delle CNN, che elaborano i pixel utilizzando filtri locali, le ViT trattano l'immagine come una sequenza di patch di dimensioni fisse. di patch di dimensioni fisse, consentendo loro di catturare il contesto globale e le dipendenze a lungo raggio fin dal primo strato, utilizzando l'autoattenzione. utilizzando l'autoattenzione.
L'architettura di un ViT rappresenta un cambiamento significativo nel modo in cui le macchine elaborano le informazioni visive. Il flusso di lavoro prevede la scomposizione di un'immagine in componenti più piccoli che possono essere elaborati in modo simile alle parole di una frase.
Entrambe le architetture sono fondamentali per la moderna computer vision (CV), si basano su diverse bias induttivi diversi. Le CNN utilizzano operazioni di convoluzione che privilegiano le interazioni locali e l'invarianza di traduzione (riconoscere un oggetto indipendentemente dalla sua posizione). Questo CNN sono molto efficienti con insiemi di dati più piccoli. Al contrario, le ViT hanno una struttura meno specifica dell'immagine e si affidano all'apprendimento di modelli modelli di apprendimento direttamente da insiemi di dati massicci come ImageNet.
Le ViT generalmente eccellono quando vengono addestrate su grandi quantità di dati, in quanto sono in grado di modellare complesse relazioni globali che le CNN potrebbero non cogliere. CNN potrebbero sfuggire. Tuttavia, questa portata globale spesso ha il costo di requisiti computazionali più elevati per l'addestramento e di una velocità di inferenza più bassa in caso di risorse limitate. di calcolo più elevati per l'addestramento e una velocità di inferenza più lenta su dispositivi dispositivi edge con risorse limitate. Modelli ibridi come RT-DETR tentano di colmare questo divario combinando una CNN CNN per un'efficiente estrazione di caratteristiche e un Trasformatore per il contesto globale.
I trasformatori di visione hanno riscontrato successo in ambiti in cui la comprensione del contesto olistico di una scena è più critica più critica rispetto ai dettagli di basso livello delle texture.
Il ultralytics supporta architetture basate su Transformer come RT-DETR (Real-Time Detection
Transformer), che sfrutta i punti di forza dei ViT per
rilevamento degli oggetti. Mentre i modelli basati su CNN, come il
raccomandato YOLO11 sono tipicamente più veloci per le applicazioni in tempo
RT-DETR offre una solida alternativa quando la priorità è l'alta precisione e il contesto globale.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes
results[0].show()
In prospettiva, le innovazioni in materia di efficienza sono fondamentali. Ultralytics sta attualmente sviluppando YOLO26, che mira a fornire l'elevata precisione associata ai trasformatori con i trasformatori, pur mantenendo la velocità delle CNN. Inoltre, l'imminente Ultralytics Platform semplificherà il flusso di lavoro per l'addestramento e l'implementazione di questi modelli avanzati in vari ambienti. questi modelli avanzati in vari ambienti, dai server cloud all'hardware edge. I principali framework come PyTorch e TensorFlow continuano a espandere il loro supporto per le varianti ViT, promuovendo ulteriori ricerche nel campo.