Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Vision Transformer (ViT)

Explore la puissance des Vision Transformers (ViT). Apprends comment l'auto-attention et la tokenisation par patch révolutionnent la vision par ordinateur au-delà des CNN avec Ultralytics.

Un Vision Transformer (ViT) est une architecture d'apprentissage profond qui adapte les mécanismes d'auto-attention conçus à l'origine pour le Natural Language Processing (NLP) afin de résoudre des tâches visuelles. Contrairement à un Convolutional Neural Network (CNN) traditionnel, qui traite les images via une hiérarchie de grilles de pixels locales, un ViT traite une image comme une séquence de patchs discrets. Cette approche a été popularisée par l'article de recherche historique "An Image is Worth 16x16 Words", qui a démontré que les architectures Transformer pures pouvaient atteindre des performances de pointe en computer vision (CV) sans dépendre de couches de convolution. En exploitant l'attention globale, les ViT peuvent capturer des dépendances à longue portée sur une image entière dès la première couche.

Link to this sectionComment fonctionnent les Vision Transformers#

L'innovation fondamentale du ViT réside dans la manière dont il structure les données d'entrée. Pour rendre une image compatible avec un Transformer standard, le modèle décompose l'information visuelle en une séquence de vecteurs, imitant la façon dont un modèle de langage traite une phrase composée de mots.

  1. Tokenisation par patchs : L'image d'entrée est divisée en une grille de carrés de taille fixe, généralement 16x16 pixels. Chaque carré est aplati en un vecteur, devenant ainsi un token visuel.

  2. Projection linéaire : Ces patchs aplatis passent par une couche linéaire entraînable pour créer des embeddings denses. Cette étape mappe les valeurs brutes des pixels dans un espace de grande dimension que le modèle peut traiter.

  3. Encodage positionnel : Étant donné que l'architecture traite les séquences en parallèle et manque d'une compréhension inhérente de l'ordre ou de l'espace, des positional encodings apprenables sont ajoutés aux embeddings de patchs. Cela permet au modèle de conserver des informations spatiales sur l'emplacement de chaque patch dans l'image originale.

  4. Mécanisme d'auto-attention : La séquence entre dans l'encodeur du Transformer, où l'self-attention permet à chaque patch d'interagir simultanément avec tous les autres. Cela permet au réseau d'apprendre un contexte global, en comprenant comment un pixel dans le coin supérieur gauche se rapporte à un pixel dans le coin inférieur droit.

  5. Tête de classification : Pour des tâches comme l'image classification, un "class token" spécial est souvent ajouté au début de la séquence. L'état de sortie final de ce token sert de représentation globale de l'image, qui est ensuite transmise à un classifieur, tel qu'un multilayer perceptron (MLP).

Link to this sectionVision Transformers vs CNNs#

Bien que les deux architectures visent à comprendre les données visuelles, elles diffèrent considérablement dans leur philosophie opérationnelle. Les CNN possèdent un fort "biais inductif" connu sous le nom d'invariance par translation, ce qui signifie qu'ils supposent intrinsèquement que les caractéristiques locales (comme les bords et les textures) sont importantes indépendamment de leur position. Cela rend les CNN très efficaces en termes de données et performants sur des datasets plus petits.

Inversement, les Vision Transformers ont moins de biais spécifiques à l'image. Ils doivent apprendre les relations spatiales à partir de zéro en utilisant des quantités massives de training data, comme les datasets JFT-300M ou ImageNet complets. Bien que cela rende l'entraînement plus intensif en termes de calcul, cela permet aux ViT de monter en échelle de manière remarquable ; avec suffisamment de données et de compute power, ils peuvent surpasser les CNN en capturant des structures globales complexes que les convolutions locales pourraient manquer.

Link to this sectionApplications concrètes#

La capacité à comprendre le contexte global rend les ViT particulièrement utiles pour des environnements complexes à enjeux élevés.

  • Analyse d'images médicales : Dans le domaine de l'healthcare AI, les ViT sont utilisés pour analyser des scans haute résolution comme les IRM ou les lames d'histopathologie. Par exemple, lors de la tumor detection, un ViT peut corréler des anomalies texturales subtiles dans les tissus avec des changements structurels plus larges sur la lame, identifiant ainsi des motifs malins que le traitement local pourrait ignorer.
  • Imagerie satellite et télédétection : Les ViT excellent dans l'satellite image analysis où les relations entre les objets s'étendent sur de grandes distances. Par exemple, relier un site de déforestation à une route forestière distante nécessite de comprendre la "vue d'ensemble" d'un paysage, une tâche où l'attention globale d'un ViT surpasse le champ récepteur limité des CNN standards.

Link to this sectionUtiliser les Transformers avec Ultralytics#

La bibliothèque ultralytics prend en charge les architectures basées sur les Transformers, notamment le RT-DETR (Real-Time Detection Transformer). Bien que le YOLO26 soit souvent privilégié pour son équilibre entre vitesse et précision sur les appareils edge, RT-DETR offre une alternative puissante pour les scénarios priorisant le contexte global.

L'exemple Python suivant montre comment charger un modèle basé sur les Transformers pré-entraîné et effectuer une inférence :

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Link to this sectionPerspectives d'avenir#

La recherche évolue rapidement pour répondre au coût de calcul élevé des ViT. Des techniques comme FlashAttention rendent ces modèles plus rapides et plus économes en mémoire. De plus, les architectures hybrides combinant l'efficacité des CNN avec l'attention des Transformers deviennent courantes. Pour les équipes cherchant à gérer ces flux de travail avancés, l'Ultralytics Platform offre un environnement unifié pour annoter les données, entraîner des modèles complexes via le cloud et les déployer sur divers points de terminaison.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique