Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Transformer

Scopri come le architetture Transformer rivoluzionano l'IA, potenziando le scoperte nel NLP, nella computer vision e nelle attività avanzate di ML.

Un Transformer è un'architettura di rete neurale innovativa che utilizza un meccanismo di auto-attenzione per elaborare i dati di ingresso in parallelo. dati in ingresso in parallelo, rivoluzionando in modo significativo i campi del elaborazione del linguaggio naturale (NLP) e della visione artificiale (CV). Introdotta per la prima volta dai ricercatori di ricercatori Google nell'articolo fondamentale del 2017 "Attention Is All You Need" (L'attenzione è tutto ciò che serve), il Transformer si allontana dall'elaborazione dall'elaborazione sequenziale utilizzata dalle architetture precedenti. Analizza invece intere sequenze di dati simultaneamente, permettendo di cogliere le dipendenze a lungo raggio e le relazioni contestuali con un'efficienza senza precedenti. Questa architettura funge da base per la moderna IA generativa e per i potenti modelli linguistici di grandi dimensioni (LLM) come il GPT-4.

Architettura e meccanismo di base

La caratteristica distintiva di un Trasformatore è il suo affidarsi al meccanismo di attenzione. meccanismo di attenzione, in particolare attenzione. A differenza delle reti neurali ricorrenti (RNN), che elaborano i dati passo per passo (ad esempio, parola per parola), i Transformer ingeriscono l'intero input in una sola volta. Per comprendere l'ordine dei dati ordine dei dati, utilizzano codifiche posizionali, che vengono aggiunte alle incorporazioni in ingresso per mantenere informazioni sulla struttura della sequenza.

L'architettura è tipicamente costituita da stack di encoder e decoder:

  • Codificatore: Elabora i dati in ingresso per creare una comprensione contestuale.
  • Decodificatore: Utilizza le intuizioni del codificatore per generare output, come il testo tradotto o i pixel dell'immagine previsti. pixel dell'immagine.

Questa struttura parallela consente una scalabilità massiccia, permettendo ai ricercatori di modelli su vasti insiemi di dati utilizzando GPU ad alte prestazioni. GPU ad alte prestazioni.

I trasformatori nella visione artificiale

Sebbene sia stata originariamente progettata per il testo, l'architettura è stata adattata con successo a compiti visivi attraverso il ViT (Vision Transformer). Vision Transformer (ViT). In questo approccio, un'immagine viene suddivisa in una sequenza di patch di dimensioni fisse (simili alle parole di una frase). Il modello utilizza poi l 'autoattenzione per pesare l'importanza delle diverse l'importanza dei diversi patch rispetto agli altri, catturando il contesto globale che le tradizionali reti neurali convoluzionali (CNN) tradizionali potrebbero non cogliere.

Ad esempio, il Trasformatore di rilevamento in tempo reale (RT-DETR) utilizza questa architettura per eseguire architettura per eseguire un rilevamento altamente rilevamento degli oggetti. A differenza dei modelli basati su CNN che che si basano su caratteristiche locali, RT-DETR è in grado di comprendere la relazione tra oggetti distanti in una scena. Tuttavia, è Tuttavia, vale la pena di notare che mentre i trasformatori eccellono nel contesto globale, i modelli basati su CNN come Ultralytics YOLO11 forniscono spesso un migliore equilibrio tra velocità e precisione per le applicazioni edge in tempo reale. Modelli comunitari come YOLO12 hanno tentato di integrare strati di attenzione pesante ma spesso soffrono di instabilità nell'addestramento e di lentezza nell'inferenza rispetto all'architettura CNN ottimizzata di YOLO11. di YOLO11.

Applicazioni nel mondo reale

La versatilità dell'architettura dei trasformatori ha portato alla sua adozione in diversi settori industriali.

  • Analisi delle immagini mediche: Nel settore sanitario, i trasformatori assistono nell'analisi analisi delle immagini mediche correlando le caratteristiche delle scansioni ad alta risoluzione (ad esempio, risonanza magnetica o TAC) per detect anomalie come i tumori. La loro capacità di comprendere contesto globale garantisce che non vengano trascurati i modelli più sottili.
  • Navigazione autonoma: Le auto a guida autonoma utilizzano modelli basati su Transformer per elaborare i feed video da telecamere multiple. Questo aiuta nella la comprensione dei video e la previsione della traiettoria tracciando il modo in cui gli oggetti dinamici (pedoni, altri veicoli) interagiscono nel tempo.
  • Chatbot avanzati: Gli assistenti virtuali e gli agenti dell'assistenza clienti si affidano ai Transformers per mantenere il mantenere il contesto nel corso di lunghe conversazioni, migliorando significativamente l'esperienza dell'utente rispetto ai chatbot più vecchi. chatbot più vecchi.

Utilizzo dei trasformatori con Ultralytics

È possibile sperimentare modelli di visione computerizzata basati su Transformer utilizzando direttamente il programma ultralytics pacchetto. L'esempio seguente mostra come caricare il modello RT-DETR per il rilevamento degli oggetti.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Transformers vs. altre architetture

È importante distinguere i Transformer da altre architetture di deep learning (DL) comuni. architetture di deep learning (DL):

  • Trasformatori contro RNN/LSTM: Le RNN soffrono del problema del problema del gradiente che svanisce, facendo dimenticare informazioni precoci in sequenze lunghe. I trasformatori risolvono questo problema con l'autoattenzione, mantenendo l'accesso all'intera storia della sequenza. della sequenza.
  • Trasformatori vs. CNN: Le CNN sono invarianti alla traduzione ed eccellenti nel rilevare modelli locali (bordi, texture). (bordi, texture) utilizzando una spina dorsale, il che le rende altamente efficiente per le attività relative alle immagini. I trasformatori apprendono relazioni globali, ma in genere richiedono più dati e potenza di calcolo per convergere. per convergere. Gli approcci moderni spesso creano modelli ibridi o utilizzano CNN efficienti come YOLO11 che superano le prestazioni dei trasformatori puri in ambienti ambienti vincolati.

Prospettive future

La ricerca migliora continuamente l'efficienza dei trasformatori. Innovazioni come FlashAttention stanno riducendo il costo computazionale, di calcolo, consentendo finestre di contesto più lunghe. Inoltre, sistemi di intelligenza artificiale multimodale stanno fondendo i Trasformatori con altre architetture per elaborare contemporaneamente testo, immagini e audio. Con la maturazione di queste tecnologie, l'imminente Ultralytics Platform fornirà un ambiente unificato per addestrare, distribuire e monitorare questi modelli sofisticati, e monitorare questi modelli sofisticati insieme ai compiti standard di di visione computerizzata.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora