Transformer
Explore l'architecture Transformer et le mécanisme d'auto-attention. Apprends comment ils propulsent des modèles IA comme RT-DETR et Ultralytics YOLO26 pour une précision supérieure.
Un Transformer est une architecture de deep learning qui repose sur un mécanisme appelé auto-attention pour traiter des données d'entrée séquentielles, telles que le langage naturel ou les caractéristiques visuelles. Initialement introduit par des chercheurs de Google dans l'article phare Attention Is All You Need, le Transformer a révolutionné le domaine de l'intelligence artificielle (IA) en supprimant les limites du traitement séquentiel des réseaux de neurones récurrents (RNN) antérieurs. Au lieu de cela, les Transformers analysent des séquences entières de données simultanément, permettant une parallélisation massive et des temps d'entraînement nettement plus rapides sur du matériel moderne comme les GPU.
Link to this sectionComment fonctionnent les Transformers#
L'innovation fondamentale du Transformer est le mécanisme d'auto-attention. Cela permet au modèle de pondérer l'importance de différentes parties des données d'entrée les unes par rapport aux autres. Par exemple, dans une phrase, le modèle peut apprendre que le mot « banque » est plus étroitement lié à « argent » qu'à « rivière » en se basant sur le contexte environnant.
Cette architecture se compose généralement de deux éléments principaux :
- Encodeur : Traite les données d'entrée en une représentation numérique riche ou embedding.
- Décodeur : Utilise la sortie de l'encodeur pour générer le résultat final, tel qu'une phrase traduite ou une bounding box prédite.
Dans le domaine de la vision par ordinateur (CV), les modèles utilisent généralement une variante appelée Vision Transformer (ViT). Au lieu de traiter des jetons de texte, l'image est divisée en patchs de taille fixe (par ex. 16x16 pixels). Ces patchs sont aplatis et traités comme une séquence, permettant au modèle de capturer un « contexte global »—en comprenant les relations entre des parties distantes d'une image—plus efficacement qu'un réseau de neurones convolutif (CNN) standard.
Link to this sectionTransformers vs Concepts connexes#
Il est important de distinguer l'architecture Transformer des termes connexes :
- Mécanisme d'attention : C'est le concept général consistant à se concentrer sur des parties spécifiques des données. Le Transformer est une architecture spécifique construite entièrement autour de couches d'attention, alors que d'autres modèles peuvent utiliser l'attention uniquement comme un petit complément.
- Modèle de langage étendu (LLM) : Des termes comme « GPT » font référence à des modèles spécifiques entraînés sur de vastes quantités de texte. Presque tous les LLM modernes utilisent l'architecture Transformer comme moteur sous-jacent.
Link to this sectionApplications concrètes#
La polyvalence des Transformers a conduit à leur adoption dans divers secteurs :
-
Imagerie médicale : Dans l'IA dans la santé, les Transformers sont utilisés pour des tâches complexes comme l'analyse d'images médicales. Leur capacité à comprendre les relations spatiales globales aide à détecter des anomalies subtiles dans des IRM ou des scanners CT haute résolution que des CNN focalisés sur les caractéristiques locales pourraient manquer.
-
Systèmes autonomes : Pour les véhicules autonomes, comprendre la trajectoire des piétons et des autres véhicules est crucial. Les Transformers excellent dans la compréhension vidéo en suivant des objets à travers les cadres temporels, prédisant les mouvements futurs pour assurer une navigation sûre.
Link to this sectionDétection d'objets avec les Transformers#
Alors que les CNN ont traditionnellement dominé la détection d'objets, des modèles basés sur les Transformers comme le Real-Time Detection Transformer (RT-DETR) sont apparus comme de puissantes alternatives. RT-DETR combine la vitesse des backbones CNN avec la précision des têtes de décodage Transformer.
Cependant, les modèles purement Transformer peuvent être gourmands en ressources de calcul. Pour de nombreuses applications en périphérie (edge), des modèles hybrides hautement optimisés comme YOLO26—qui intègrent des mécanismes d'attention efficaces avec un traitement convolutif rapide—offrent un équilibre supérieur entre vitesse et précision. Tu peux gérer facilement l'entraînement et le déploiement de ces modèles via la Ultralytics Platform, qui simplifie le flux de travail depuis l'annotation du jeu de données jusqu'à l'exportation du modèle.
Link to this sectionExemple Python : Utiliser RT-DETR#
L'exemple suivant démontre comment effectuer une inférence en utilisant un modèle basé sur Transformer au sein du package ultralytics. Ce code charge un modèle RT-DETR pré-entraîné et détecte des objets dans une image.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()Pour aller plus loin sur les fondements mathématiques, la documentation PyTorch sur les couches Transformer fournit une profondeur technique, tandis que le guide d'IBM sur les Transformers offre une perspective commerciale de haut niveau.






