Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Transformeur

Découvrez comment les architectures Transformer révolutionnent l'IA, permettant des avancées majeures en NLP, en vision par ordinateur et dans les tâches d'apprentissage automatique avancées.

Un Transformer est une architecture de réseau neuronal révolutionnaire qui est devenue la pierre angulaire de l'Intelligence Artificielle (IA) moderne, en particulier dans le Traitement du Langage Naturel (NLP) et, plus récemment, dans la Vision par Ordinateur (CV). Introduite par les chercheurs de Google dans l'article de 2017 "Attention Is All You Need", son innovation clé est le mécanisme d'auto-attention, qui permet au modèle de pondérer l'importance des différents mots ou parties d'une séquence d'entrée. Cela lui permet de capturer les dépendances à longue portée et les relations contextuelles plus efficacement que les architectures précédentes. La conception permet également une parallélisation massive, ce qui permet d'entraîner des modèles beaucoup plus grands sur des ensembles de données massifs, conduisant à l'essor des Grands Modèles de Langue (LLM).

Comment fonctionnent les Transformers

Contrairement aux modèles séquentiels tels que les réseaux neuronaux récurrents (RNN), les Transformers traitent des séquences entières de données en une seule fois. L'idée principale est de traiter tous les éléments en parallèle, ce qui accélère considérablement l'entraînement sur du matériel moderne comme les GPU.

Pour comprendre l'ordre séquentiel sans récurrence, les Transformers utilisent une technique appelée encodage positionnel, qui ajoute des informations sur la position de chaque élément (par exemple, un mot dans une phrase) à son embedding. Les couches d'auto-attention traitent ensuite ces embeddings, permettant à chaque élément de "regarder" tous les autres éléments de la séquence et de déterminer lesquels sont les plus pertinents pour comprendre sa signification. Cette conscience du contexte global est un avantage majeur pour les tâches complexes. Des frameworks comme PyTorch et TensorFlow offrent un support étendu pour la construction de modèles basés sur Transformer.

Applications des transformateurs

L'impact des Transformers s'étend à de nombreux domaines, stimulant les progrès dans les tâches de langage et de vision.

  1. Traduction et génération de langage : Des services comme Google Translate utilisent des modèles basés sur Transformer pour une traduction automatique de haute qualité. Le modèle peut prendre en compte l'ensemble de la phrase source pour produire une traduction plus fluide et précise. De même, les modèles comme GPT-4 excellent dans la génération de texte en comprenant le contexte pour créer des paragraphes cohérents, écrire des articles ou alimenter des chatbots avancés.
  2. Vision par ordinateur : Le Vision Transformer (ViT) adapte l'architecture aux tâches basées sur l'image. Il considère une image comme une séquence de patchs et utilise l'auto-attention pour modéliser les relations entre eux. Cette approche est utilisée dans des modèles tels que RT-DETR pour la détection d'objets, où la compréhension du contexte global d'une scène peut aider à identifier les objets plus précisément, en particulier dans les environnements encombrés. Vous pouvez consulter une comparaison de RT-DETR et YOLOv8 pour comprendre leurs différences architecturales.

Transformer Vs. Autres architectures

Il est utile de distinguer les Transformers des autres architectures de réseaux neuronaux courantes :

  • Transformers vs. RNN : Les RNN traitent les données de manière séquentielle, ce qui les rend intrinsèquement lents et susceptibles de rencontrer le problème de disparition du gradient, les amenant à oublier les informations antérieures dans les longues séquences. Les Transformers surmontent ce problème grâce au traitement parallèle et à l’auto-attention, capturant les dépendances à longue portée beaucoup plus efficacement.
  • Transformers vs. CNN : Les réseaux neuronaux convolutionnels (CNN) sont très efficaces pour les tâches de vision, utilisant des filtres convolutionnels pour identifier les motifs locaux dans les données de type grille comme les pixels. Ils constituent la base de modèles comme la famille Ultralytics YOLO. Les Transformers, en revanche, capturent les relations globales, mais nécessitent souvent plus de données et de ressources de calcul. Les modèles hybrides, qui combinent un backbone CNN avec des couches Transformer, visent à tirer le meilleur parti des deux.

Variantes efficaces de transformateurs

Le coût de calcul de l'auto-attention complète du Transformer original croît de façon quadratique avec la longueur de la séquence, ce qui le rend difficile à utiliser pour les séquences très longues. Cela a conduit au développement de variantes plus efficaces.

  • Longformer: Utilise un mécanisme d'attention à fenêtre glissante combiné à une attention globale sur des jetons spécifiques pour réduire la complexité computationnelle.
  • Reformer : Emploie des techniques telles que le hachage sensible à la localité pour approximer l’attention totale, ce qui le rend plus efficace en termes de mémoire.
  • Transformer-XL : Introduit un mécanisme de récurrence qui permet au modèle d'apprendre les dépendances au-delà d'une longueur fixe, ce qui est particulièrement utile pour la modélisation auto-régressive du langage.

Ces avancées continuent d'étendre l'applicabilité des Transformers à de nouveaux problèmes. Des outils et des plateformes comme Hugging Face et Ultralytics HUB facilitent l'accès et le déploiement de ces modèles puissants pour les développeurs.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers