Découvrez comment les architectures Transformer révolutionnent l'IA, permettant des avancées majeures en NLP, en vision par ordinateur et dans les tâches d'apprentissage automatique avancées.
A Transformer est une architecture de réseau neuronal révolutionnaire qui utilise un mécanisme d'auto-attention pour traiter les données d'entrée en parallèle. données d'entrée en parallèle, ce qui révolutionne considérablement les domaines du traitement du langage naturel (NLP). traitement du langage naturel (NLP) et de la vision par ordinateur (VA). Présenté pour la première fois par des chercheurs de chercheurs de Google dans l'article fondateur de 2017 "Attention Is All You Need", le Transformer s'éloigne du traitement séquentiel utilisé par les anciennes architectures. traitement séquentiel utilisé par les anciennes architectures. Au lieu de cela, il analyse des séquences entières de données simultanément, ce qui lui permet de capturer les dépendances à long terme et les relations contextuelles avec une efficacité sans précédent. Cette sert de base à l'IA générative moderne et à de puissantes l 'IA générative moderne et les puissants puissants modèles de langage (LLM) comme le GPT-4.
La caractéristique principale d'un transformateur est qu'il s'appuie sur le mécanisme de l'attention. mécanisme d'attention, en particulier l'attention l'auto-attention. Contrairement aux réseaux neuronaux récurrents (RNN), qui traitent les données étape par étape (par exemple, mot par mot), les transformateurs ingèrent l'ensemble des données en une seule fois. Pour comprendre l'ordre l'ordre des données, ils utilisent des des encodages positionnels, qui sont ajoutés aux encodages d' entrée pour conserver des des informations sur la structure de la séquence.
L'architecture se compose généralement de piles d'encodeurs et de décodeurs :
Cette structure parallèle permet une extensibilité massive, ce qui permet aux chercheurs de d 'entraîner des modèles sur de vastes ensembles de données à l'aide de haute performance.
Conçue à l'origine pour le texte, l'architecture a été adaptée avec succès aux tâches visuelles grâce à l'outil Vision Transformer (ViT). Dans cette approche, une image est divisée en une séquence de parcelles de taille fixe (semblables aux mots d'une phrase). Le modèle utilise ensuite l 'auto-attention pour évaluer l'importance des différentes différentes taches les unes par rapport aux autres, capturant ainsi le contexte global que les réseaux neuronaux convolutionnels (CN) traditionnels ne sont pas en mesure de capturer. réseaux neuronaux convolutionnels (CNN) traditionnels pourraient manquer.
Par exemple, le transformateur de détection en temps réel (RT-DETR) utilise cette architecture pour effectuer une détection détection d'objets très précise. Contrairement aux modèles basés sur le CNN qui qui s'appuient sur des caractéristiques locales, RT-DETR peut comprendre la relation entre des objets distants dans une scène. Cependant, il est Toutefois, il convient de noter que si les transformateurs excellent dans le contexte global, les modèles basés sur la CNN Ultralytics YOLO11 offrent souvent un meilleur équilibre entre vitesse et de précision pour les applications en temps réel. Les modèles communautaires tels que YOLO12 ont tenté d'intégrer des couches d'attention lourdes mais souffrent souvent d'instabilité de l'apprentissage et de vitesses d'inférence lentes par rapport à l'architecture CNN optimisée de YOLO11. optimisée de YOLO11.
La polyvalence de l'architecture du transformateur a conduit à son adoption dans diverses industries.
Vous pouvez expérimenter les modèles de vision par ordinateur basés sur Transformer directement en utilisant la fonction ultralytics de l'emballage.
L'exemple suivant montre comment charger le modèle RT-DETR pour la détection d'objets.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Il est important de distinguer les Transformers d'autres architectures courantes de architectures d'apprentissage profond (DL):
La recherche améliore continuellement l'efficacité des transformateurs. Des innovations telles que FlashAttention réduisent les coûts de calcul, ce qui permet d'allonger la durée des fenêtres contextuelles. En outre, les systèmes d'IA multimodale systèmes d'IA multimodale fusionnent les Transformers avec d'autres d'autres architectures pour traiter simultanément du texte, des images et du son. Au fur et à mesure que ces technologies arrivent à maturité, la prochaine plateforme Ultralytics Platform fournira un environnement unifié pour former, déployer, et de contrôler ces modèles sophistiqués parallèlement aux tâches tâches standard de vision par ordinateur.