Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Swin Transformer

Découvre comment l'architecture Swin Transformer utilise des fenêtres décalées pour une vision par ordinateur efficace, et explore les flux de travail sur la plateforme Ultralytics.

Introduite par des chercheurs de Microsoft dans le célèbre article de 2021 "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows", cette architecture de deep learning (DL) adapte le mécanisme d'attention pour gérer la complexité des données visuelles haute résolution. Contrairement aux modèles de traitement du langage naturel qui traitent des jetons de texte de longueur uniforme, cette architecture reconnaît que les éléments visuels varient considérablement en termes d'échelle. En construisant une représentation hiérarchique et en utilisant une technique de fenêtrage unique, elle atteint une complexité computationnelle linéaire par rapport à la taille de l'image, ce qui en fait un backbone très efficace pour une variété de tâches de computer vision (CV).

Link to this sectionComment fonctionnent les fenêtres décalées et la conception hiérarchique#

L'innovation principale réside dans la manière dont le modèle structure l'extraction de caractéristiques. Il commence par diviser une image d'entrée en petites zones qui ne se chevauchent pas. Cependant, contrairement aux modèles précédents, il fusionne progressivement ces zones voisines en régions plus grandes dans les couches plus profondes. Cette approche hiérarchique permet au réseau d'extraire des feature maps riches qui représentent le contexte global à différentes échelles, des minuscules détails visuels aux grands objets.

Pour maintenir l'efficacité computationnelle, l'auto-attention est calculée uniquement au sein de fenêtres locales isolées plutôt que sur l'image entière. Pour garantir que les informations circulent au-delà de ces limites, les fenêtres sont "décalées" entre les couches successives. Ce schéma de fenêtres décalées relie efficacement des zones indépendantes, offrant des hiérarchies spatiales multi-échelles complètes sans la lourde charge computationnelle associée à l'attention globale.

Link to this sectionSwin Transformer vs. Vision Transformer (ViT)#

Lors de la comparaison des architectures modernes, il est important de distinguer ce modèle du Vision Transformer (ViT) standard. Le ViT original traite les images comme une séquence de zones de taille fixe et calcule l'attention globale sur toutes en même temps. Bien qu'il soit très précis, cela entraîne une complexité computationnelle quadratique, ce qui signifie que le temps de traitement et les besoins en mémoire explosent à mesure que la résolution de l'image augmente.

En revanche, la conception hiérarchique et basée sur les fenêtres de l'architecture Swin maintient une complexité linéaire. Cela la rend beaucoup plus pratique pour les tâches de prédiction dense qui nécessitent des entrées et sorties haute résolution. Par conséquent, elle obtient des résultats de pointe sur des benchmarks comme le dataset COCO test-dev pour la détection d'objets multi-échelle et le dataset de segmentation sémantique ADE20K pour une image segmentation précise.

Link to this sectionApplications concrètes dans l'IA moderne#

En raison de sa flexibilité et de son efficacité, l'implémentation officielle du référentiel GitHub de Microsoft Research a été adaptée dans des secteurs complexes à enjeux élevés.

Link to this sectionIntégration avec PyTorch et Ultralytics#

Pour les développeurs qui créent des réseaux neuronaux personnalisés, l'implémentation de cette architecture est simple en utilisant la documentation officielle de PyTorch. La bibliothèque torchvision inclut des versions pré-entraînées, telles que la variante légère Tiny, optimisée sur ImageNet.

import torch
from torchvision.models import Swin_T_Weights, swin_t

# Load a pre-trained Tiny variant with ImageNet weights
weights = Swin_T_Weights.IMAGENET1K_V1
model = swin_t(weights=weights)
model.eval()

# Run a single batch containing a 3-channel, 224x224 dummy image tensor
dummy_image = torch.randn(1, 3, 224, 224)
output = model(dummy_image)

# The output shape is [1, 1000], representing the 1000 ImageNet classes
print(f"Prediction tensor shape: {output.shape}")

Bien que les backbones basés sur des Transformers offrent une excellente représentation multi-échelle, les applications modernes exigent souvent des optimisations de bout en bout pour les appareils d'IA en périphérie (edge AI). Par exemple, Ultralytics YOLO26 fournit une architecture nativement de bout en bout qui est plus petite, plus rapide et très précise dès le départ, excellant dans les environnements edge en temps réel. Que tu utilises des architectures lourdes basées sur des Transformers ou des modèles convolutionnels rapides, tu peux gérer tout ton flux de travail—de l'annotation des données à l'entraînement—via l'Ultralytics Platform. Cette chaîne d'outils cloud complète rend le déploiement de modèles et le suivi de modèles continu simples et efficaces.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique