Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Swin Transformer

Scopri come l'architettura Swin Transformer utilizza finestre spostate per una visione artificiale efficiente ed esplora i flussi di lavoro sulla piattaforma Ultralytics.

Introdotto dai ricercatori di Microsoft nel fondamentale articolo del 2021 "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows", questa architettura di deep learning (DL) adatta il meccanismo di attenzione per gestire le complessità dei dati visivi ad alta risoluzione. A differenza dei modelli di elaborazione del linguaggio naturale (NLP) che elaborano token di testo di lunghezza uniforme, questa architettura riconosce che gli elementi visivi variano drasticamente in scala. Costruendo una rappresentazione gerarchica e utilizzando una tecnica di finestra unica, ottiene una complessità computazionale lineare rispetto alla dimensione dell'immagine, rendendola un backbone altamente efficiente per una varietà di attività di computer vision (CV).

Link to this sectionCome funzionano le finestre spostate e il design gerarchico#

L'innovazione principale risiede nel modo in cui il modello struttura l'estrazione delle feature. Inizia dividendo un'immagine di input in piccoli patch non sovrapposti. Tuttavia, a differenza dei modelli precedenti, unisce progressivamente questi patch vicini in regioni più grandi negli strati più profondi. Questo approccio gerarchico consente alla rete di estrarre ricche mappe delle feature che rappresentano il contesto globale a varie scale, dai piccoli dettagli visivi agli oggetti di grandi dimensioni.

To maintain computational efficiency, self-attention is computed only within local, isolated windows rather than across the entire image. To ensure information flows across these boundaries, the windows are "shifted" between successive layers. This shifted window scheme effectively bridges independent areas, providing comprehensive multi-scale spatial hierarchies without the heavy computational burden associated with global attention.

Link to this sectionSwin Transformer Vs. Vision Transformer (ViT)#

Quando si confrontano le architetture moderne, è importante distinguere questo modello dal Vision Transformer (ViT) standard. Il ViT originale tratta le immagini come una sequenza di patch di dimensioni fisse e calcola l'attenzione globale su tutte contemporaneamente. Sebbene sia molto accurato, ciò comporta una complessità computazionale quadratica, il che significa che il tempo di elaborazione e i requisiti di memoria aumentano vertiginosamente all'aumentare della risoluzione dell'immagine.

Al contrario, il design gerarchico e basato su finestre dell'architettura Swin mantiene la complessità lineare. Ciò la rende molto più pratica per attività di previsione densa che richiedono input e output ad alta risoluzione. Di conseguenza, ottiene risultati all'avanguardia su benchmark come il dataset COCO test-dev per il rilevamento di oggetti multi-scala e il dataset di segmentazione semantica ADE20K per una precisa segmentazione delle immagini.

Link to this sectionApplicazioni reali nell'IA moderna#

Grazie alla sua flessibilità ed efficienza, l'implementazione ufficiale del repository GitHub di Microsoft Research è stata adattata in settori complessi e ad alto impatto.

Link to this sectionIntegrazione con PyTorch e Ultralytics#

Per gli sviluppatori che creano reti neurali personalizzate, implementare questa architettura è semplice utilizzando la documentazione ufficiale di PyTorch. La libreria torchvision include versioni pre-addestrate, come la variante leggera Tiny, ottimizzata su ImageNet.

import torch
from torchvision.models import Swin_T_Weights, swin_t

# Load a pre-trained Tiny variant with ImageNet weights
weights = Swin_T_Weights.IMAGENET1K_V1
model = swin_t(weights=weights)
model.eval()

# Run a single batch containing a 3-channel, 224x224 dummy image tensor
dummy_image = torch.randn(1, 3, 224, 224)
output = model(dummy_image)

# The output shape is [1, 1000], representing the 1000 ImageNet classes
print(f"Prediction tensor shape: {output.shape}")

Mentre i backbone basati su Transformer offrono un'eccellente rappresentazione multi-scala, le applicazioni moderne richiedono spesso ottimizzazioni end-to-end per dispositivi Edge AI. Ad esempio, Ultralytics YOLO26 fornisce un'architettura nativamente end-to-end che è più piccola, più veloce e altamente accurata fin da subito, eccellendo negli ambienti edge in tempo reale. Che tu stia utilizzando architetture pesanti basate su Transformer o veloci modelli convoluzionali, puoi gestire l'intero flusso di lavoro, dall'annotazione dei dati all'addestramento, tramite la Ultralytics Platform. Questa catena di strumenti cloud completa rende il deployment dei modelli e il monitoraggio continuo dei modelli semplici ed efficienti.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning