Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Transformeur

Découvrez comment les architectures Transformer révolutionnent l'IA, permettant des avancées majeures en NLP, en vision par ordinateur et dans les tâches d'apprentissage automatique avancées.

A Transformer est une architecture de réseau neuronal révolutionnaire qui utilise un mécanisme d'auto-attention pour traiter les données d'entrée en parallèle. données d'entrée en parallèle, ce qui révolutionne considérablement les domaines du traitement du langage naturel (NLP). traitement du langage naturel (NLP) et de la vision par ordinateur (VA). Présenté pour la première fois par des chercheurs de chercheurs de Google dans l'article fondateur de 2017 "Attention Is All You Need", le Transformer s'éloigne du traitement séquentiel utilisé par les anciennes architectures. traitement séquentiel utilisé par les anciennes architectures. Au lieu de cela, il analyse des séquences entières de données simultanément, ce qui lui permet de capturer les dépendances à long terme et les relations contextuelles avec une efficacité sans précédent. Cette sert de base à l'IA générative moderne et à de puissantes l 'IA générative moderne et les puissants puissants modèles de langage (LLM) comme le GPT-4.

Architecture et mécanisme de base

La caractéristique principale d'un transformateur est qu'il s'appuie sur le mécanisme de l'attention. mécanisme d'attention, en particulier l'attention l'auto-attention. Contrairement aux réseaux neuronaux récurrents (RNN), qui traitent les données étape par étape (par exemple, mot par mot), les transformateurs ingèrent l'ensemble des données en une seule fois. Pour comprendre l'ordre l'ordre des données, ils utilisent des des encodages positionnels, qui sont ajoutés aux encodages d' entrée pour conserver des des informations sur la structure de la séquence.

L'architecture se compose généralement de piles d'encodeurs et de décodeurs :

  • Encodeur : Traite les données d'entrée pour créer une compréhension contextuelle.
  • Décodeur : Utilise les connaissances de l'encodeur pour générer des résultats, tels que du texte traduit ou des pixels d'image prédits. pixels d'une image.

Cette structure parallèle permet une extensibilité massive, ce qui permet aux chercheurs de d 'entraîner des modèles sur de vastes ensembles de données à l'aide de haute performance.

Transformateurs dans le domaine de la vision par ordinateur

Conçue à l'origine pour le texte, l'architecture a été adaptée avec succès aux tâches visuelles grâce à l'outil Vision Transformer (ViT). Dans cette approche, une image est divisée en une séquence de parcelles de taille fixe (semblables aux mots d'une phrase). Le modèle utilise ensuite l 'auto-attention pour évaluer l'importance des différentes différentes taches les unes par rapport aux autres, capturant ainsi le contexte global que les réseaux neuronaux convolutionnels (CN) traditionnels ne sont pas en mesure de capturer. réseaux neuronaux convolutionnels (CNN) traditionnels pourraient manquer.

Par exemple, le transformateur de détection en temps réel (RT-DETR) utilise cette architecture pour effectuer une détection détection d'objets très précise. Contrairement aux modèles basés sur le CNN qui qui s'appuient sur des caractéristiques locales, RT-DETR peut comprendre la relation entre des objets distants dans une scène. Cependant, il est Toutefois, il convient de noter que si les transformateurs excellent dans le contexte global, les modèles basés sur la CNN Ultralytics YOLO11 offrent souvent un meilleur équilibre entre vitesse et de précision pour les applications en temps réel. Les modèles communautaires tels que YOLO12 ont tenté d'intégrer des couches d'attention lourdes mais souffrent souvent d'instabilité de l'apprentissage et de vitesses d'inférence lentes par rapport à l'architecture CNN optimisée de YOLO11. optimisée de YOLO11.

Applications concrètes

La polyvalence de l'architecture du transformateur a conduit à son adoption dans diverses industries.

  • Analyse d'images médicales : Dans le domaine des soins de santé, les transformateurs l'analyse d'images médicales en corrélant les les caractéristiques des scanners à haute résolution (par exemple, IRM ou CT) afin de detect anomalies telles que les tumeurs. Leur capacité à comprendre le leur capacité à comprendre le contexte global permet de ne pas négliger les schémas subtils.
  • Navigation autonome : Les voitures auto-conduites utilisent des modèles basés sur les transformateurs pour traiter les flux vidéo provenant de plusieurs caméras. de plusieurs caméras. Cela permet la compréhension des vidéos et la prédiction des trajectoires en suivant la manière dont les objets dynamiques (piétons, autres véhicules) interagissent au fil du temps.
  • Chatbots avancés : Les assistants virtuels et les agents d'assistance à la clientèle s'appuient sur les Transformers pour maintenir le contexte au cours de longues conversations. contexte au cours de longues conversations, ce qui améliore considérablement l'expérience de l'utilisateur par rapport aux anciens chatbots. plus anciens .

Utilisation de transformateurs avec des Ultralytics

Vous pouvez expérimenter les modèles de vision par ordinateur basés sur Transformer directement en utilisant la fonction ultralytics de l'emballage. L'exemple suivant montre comment charger le modèle RT-DETR pour la détection d'objets.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Transformateurs et autres architectures

Il est important de distinguer les Transformers d'autres architectures courantes de architectures d'apprentissage profond (DL):

  • Transformateurs vs. RNNs/LSTMs : Les RNN souffrent du problème du gradient du gradient qui s'évanouit, ce qui leur fait oublier les les premières informations dans les longues séquences. Les transformateurs résolvent ce problème grâce à l'auto-attention, en conservant l'accès à l'ensemble de l'historique de la séquence. l'historique de la séquence.
  • Transformateurs contre CNN : Les CNN sont invariants par rapport à la traduction et excellent dans la détection de motifs locaux (bords, textures) à l'aide d'une colonne vertébrale. (bords, textures) à l'aide d'une colonne vertébrale, ce qui les rend très très efficaces pour les tâches liées à l'image. Les transformateurs apprennent les relations globales mais nécessitent généralement plus de données et de puissance de calcul pour converger. pour converger. Les approches modernes créent souvent des modèles hybrides ou utilisent des CNN efficaces comme le YOLO11 qui surpassent les transformateurs purs dans les environnements dans des environnements contraints.

Perspectives d'avenir

La recherche améliore continuellement l'efficacité des transformateurs. Des innovations telles que FlashAttention réduisent les coûts de calcul, ce qui permet d'allonger la durée des fenêtres contextuelles. En outre, les systèmes d'IA multimodale systèmes d'IA multimodale fusionnent les Transformers avec d'autres d'autres architectures pour traiter simultanément du texte, des images et du son. Au fur et à mesure que ces technologies arrivent à maturité, la prochaine plateforme Ultralytics Platform fournira un environnement unifié pour former, déployer, et de contrôler ces modèles sophistiqués parallèlement aux tâches tâches standard de vision par ordinateur.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant