Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Auto-Attention

Découvrez la puissance de l'auto-attention dans l'IA, qui révolutionne la PNL, la vision par ordinateur et la reconnaissance vocale grâce à une précision tenant compte du contexte.

L'auto-attention est un mécanisme au sein des modèles d'apprentissage profond qui leur permet d'évaluer l'importance des différents éléments d'une séquence d'entrée par rapport à d'autres. éléments d'une séquence d'entrée les uns par rapport aux autres. Contrairement aux architectures traditionnelles qui traitent les données de manière séquentielle ou localement, l'auto-attention permet à un modèle d'examiner l'ensemble de la séquence en une seule fois et de déterminer quelles parties sont les plus pertinentes pour comprendre l'élément actuel. les plus pertinentes pour comprendre l'élément actuel. Cette capacité est la caractéristique déterminante de l'architecture Transformer, qui a révolutionné des domaines des domaines tels que le traitement du langage naturel (NLP) à la vision artificielle avancée (CV). En calculant les relations En calculant les relations entre chaque paire d'éléments d'un ensemble de données, l'auto-attention fournit une compréhension globale du contexte qui est difficile à obtenir avec les méthodes plus anciennes telles que le traitement du langage naturel (NLP). difficile à obtenir avec des méthodes plus anciennes comme les réseaux neuronaux récurrents (RNN). les réseaux neuronaux récurrents (RNN).

Comment fonctionne l’auto-attention

Conceptuellement, l'auto-attention imite la façon dont les humains traitent les informations en se concentrant sur des détails spécifiques tout en ignorant les bruits non pertinents. les bruits non pertinents. Lors du traitement d'une phrase ou d'une image, le modèle attribue des "scores d'attention" à chaque élément. élément. Ces scores déterminent le degré d'attention à accorder aux autres parties de l'entrée lors de l'encodage d'un mot ou d'un pixel spécifique. mot ou un pixel spécifique.

Le processus consiste généralement à créer trois vecteurs pour chaque élément d'entrée : une requête, une clé et une valeur. clé et une valeur.

  • Requête: Représente l'élément actuel demandant des informations pertinentes.
  • Clé: sert d'identifiant pour les autres éléments de la séquence.
  • Valeur: Contient le contenu réel de l'information.

Le modèle compare la requête d'un élément aux clés de tous les autres pour calculer la compatibilité. Ces scores de compatibilité sont normalisés à l'aide d'une fonction fonction softmax pour créer des poids. Enfin, ces poids sont appliqués aux valeurs pour produire une nouvelle représentation tenant compte du contexte. Ce traitement parallèle efficace permet l'apprentissage de grands modèles linguistiques (LLM) de grands modèles de langage (LLM) et de puissants puissants modèles de vision à l'aide de GPU modernes. Pour une une plongée visuelle plus profonde, des ressources telles que Jay Alammar offrent une excellente intuition. d'excellentes intuitions.

Auto-attention et attention générale

Bien que ces termes soient souvent utilisés de manière très proche, il est utile de distinguer l'auto-attention du mécanisme plus large de l'attention. mécanisme de l'attention.

  • Auto-attention: La requête, la clé et la valeur proviennent toutes de la même séquence d'entrée. L'objectif L'objectif est d'apprendre les relations internes, telles que la manière dont les mots d'une phrase sont liés les uns aux autres (par exemple, comprendre ce à quoi "il" fait référence dans un paragraphe). comprendre à quoi "il" fait référence dans un paragraphe).
  • Attention croisée: Souvent utilisée dans les modèles modèles séquence à séquence, l'interrogation La requête provient d'une séquence (comme un décodeur) tandis que la clé et la valeur proviennent d'une autre séquence (comme un encodeur). Ceci est courante dans la traduction automatique où la sortie en la sortie en langue cible s'occupe de l'entrée en langue source.

Applications concrètes

La capacité à saisir les dépendances à long terme a rendu l'auto-attention omniprésente dans les systèmes modernes d'intelligence artificielle (IA). l 'intelligence artificielle (IA).

  1. Analyse contextuelle du texte: dans le cadre du NLP, l'auto-attention permet de résoudre les ambiguïtés. Prenons le mot "banque". "banque". Dans la phrase "Il a pêché au bord de la rivière", le modèle utilise l'auto-attention pour associer "banque" à "pêche" et à "rivière", en le distinguant d'une institution financière. Le modèle utilise l'auto-attention pour associer "bank" à "fished" et "river", le distinguant ainsi d'une institution financière. Ce modèle outils tels que Google Translate et les chatbots basés sur l'IA générative. l 'IA générative.
  2. Compréhension globale de l'image: Dans le domaine de la vision par ordinateur, des modèles tels que le Vision Transformer (ViT) divisent les images en parcelles et utilisent l'auto-attention pour relier des parties éloignées d'une scène. Ceci est crucial pour détection d'objets dans des environnements encombrés. Le Ultralytics RT-DETR (transformateur de détection en temps réel) permet d'atteindre une grande précision en gérant efficacement en gérant efficacement le contexte global, contrairement aux réseaux neuronaux convolutifs (CNN) standard qui se concentrent sur les caractéristiques locales.

Exemple de code

L'extrait Python suivant montre comment charger et utiliser un modèle basé sur Transformer qui s'appuie sur l'auto-attention pour l'inférence à l'aide de l'outil ultralytics l'emballage.

from ultralytics import RTDETR

# Load the RT-DETR model, which uses self-attention for object detection
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects with global context
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class probabilities
results[0].show()

Importance dans les architectures modernes

L'auto-attention a été introduite dans l'article fondateur "Attention Is All You Need" (L'attention est tout ce dont vous avez besoin) par les chercheurs de Google . Ce document problème de la disparition du gradient qui affectait les architectures d'apprentissage les architectures d'apprentissage profond antérieures, ce qui a permis la création de modèles de base comme le GPT-4.

Bien que les modèles basés sur l'attention soient puissants, ils peuvent être coûteux en termes de calcul. Pour de nombreuses applications en temps réel, des modèles efficaces basés sur le CNN comme YOLO11 restent le restent le choix recommandé en raison de leur vitesse et de leur faible empreinte mémoire. Cependant, les approches hybrides et les transformateurs optimisés continuent de repousser les limites de l'apprentissage l 'apprentissage automatique. À l'avenir, les architectures architectures à venir comme YOLO26 visent à intégrer le meilleur des deux des deux mondes, offrant des capacités de bout en bout sur la plateformeUltralytics . Des cadres comme PyTorch et TensorFlow fournissent les éléments de base permettant aux développeurs expérimenter ces couches d'auto-attention avancées.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant