Scopri come le architetture Transformer rivoluzionano l'IA, potenziando le scoperte nel NLP, nella computer vision e nelle attività avanzate di ML.
Un Transformer è un'architettura di rete neurale innovativa che utilizza un meccanismo di auto-attenzione per elaborare i dati di ingresso in parallelo. dati in ingresso in parallelo, rivoluzionando in modo significativo i campi del elaborazione del linguaggio naturale (NLP) e della visione artificiale (CV). Introdotta per la prima volta dai ricercatori di ricercatori Google nell'articolo fondamentale del 2017 "Attention Is All You Need" (L'attenzione è tutto ciò che serve), il Transformer si allontana dall'elaborazione dall'elaborazione sequenziale utilizzata dalle architetture precedenti. Analizza invece intere sequenze di dati simultaneamente, permettendo di cogliere le dipendenze a lungo raggio e le relazioni contestuali con un'efficienza senza precedenti. Questa architettura funge da base per la moderna IA generativa e per i potenti modelli linguistici di grandi dimensioni (LLM) come il GPT-4.
La caratteristica distintiva di un Trasformatore è il suo affidarsi al meccanismo di attenzione. meccanismo di attenzione, in particolare attenzione. A differenza delle reti neurali ricorrenti (RNN), che elaborano i dati passo per passo (ad esempio, parola per parola), i Transformer ingeriscono l'intero input in una sola volta. Per comprendere l'ordine dei dati ordine dei dati, utilizzano codifiche posizionali, che vengono aggiunte alle incorporazioni in ingresso per mantenere informazioni sulla struttura della sequenza.
L'architettura è tipicamente costituita da stack di encoder e decoder:
Questa struttura parallela consente una scalabilità massiccia, permettendo ai ricercatori di modelli su vasti insiemi di dati utilizzando GPU ad alte prestazioni. GPU ad alte prestazioni.
Sebbene sia stata originariamente progettata per il testo, l'architettura è stata adattata con successo a compiti visivi attraverso il ViT (Vision Transformer). Vision Transformer (ViT). In questo approccio, un'immagine viene suddivisa in una sequenza di patch di dimensioni fisse (simili alle parole di una frase). Il modello utilizza poi l 'autoattenzione per pesare l'importanza delle diverse l'importanza dei diversi patch rispetto agli altri, catturando il contesto globale che le tradizionali reti neurali convoluzionali (CNN) tradizionali potrebbero non cogliere.
Ad esempio, il Trasformatore di rilevamento in tempo reale (RT-DETR) utilizza questa architettura per eseguire architettura per eseguire un rilevamento altamente rilevamento degli oggetti. A differenza dei modelli basati su CNN che che si basano su caratteristiche locali, RT-DETR è in grado di comprendere la relazione tra oggetti distanti in una scena. Tuttavia, è Tuttavia, vale la pena di notare che mentre i trasformatori eccellono nel contesto globale, i modelli basati su CNN come Ultralytics YOLO11 forniscono spesso un migliore equilibrio tra velocità e precisione per le applicazioni edge in tempo reale. Modelli comunitari come YOLO12 hanno tentato di integrare strati di attenzione pesante ma spesso soffrono di instabilità nell'addestramento e di lentezza nell'inferenza rispetto all'architettura CNN ottimizzata di YOLO11. di YOLO11.
La versatilità dell'architettura dei trasformatori ha portato alla sua adozione in diversi settori industriali.
È possibile sperimentare modelli di visione computerizzata basati su Transformer utilizzando direttamente il programma ultralytics pacchetto.
L'esempio seguente mostra come caricare il modello RT-DETR per il rilevamento degli oggetti.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
È importante distinguere i Transformer da altre architetture di deep learning (DL) comuni. architetture di deep learning (DL):
La ricerca migliora continuamente l'efficienza dei trasformatori. Innovazioni come FlashAttention stanno riducendo il costo computazionale, di calcolo, consentendo finestre di contesto più lunghe. Inoltre, sistemi di intelligenza artificiale multimodale stanno fondendo i Trasformatori con altre architetture per elaborare contemporaneamente testo, immagini e audio. Con la maturazione di queste tecnologie, l'imminente Ultralytics Platform fornirà un ambiente unificato per addestrare, distribuire e monitorare questi modelli sofisticati, e monitorare questi modelli sofisticati insieme ai compiti standard di di visione computerizzata.