Explore the [attention mechanism](https://www.ultralytics.com/glossary/attention-mechanism) in AI. Learn how it enhances models like [YOLO26](https://docs.ultralytics.com/models/yolo26/) and [RT-DETR](https://docs.ultralytics.com/models/rtdetr/) for superior accuracy.
Un mécanisme d'attention est une technique fondamentale en l'intelligence artificielle (IA) qui imite la capacité cognitive humaine à se concentrer sur des détails spécifiques tout en ignorant les informations non pertinentes. Dans le contexte de l' apprentissage profond (DL), ce mécanisme permet à un réseau neuronal (NN) d' attribuer de manière dynamique différents niveaux d'importance, ou « poids », à différentes parties des données d'entrée. Au lieu de traiter une image ou une phrase entière avec la même importance, le modèle apprend à se concentrer sur les caractéristiques les plus significatives, telles qu'un mot spécifique dans une phrase pour comprendre le contexte, ou un objet distinct dans une scène visuelle complexe . Cette avancée est le moteur du architecture Transformer , qui a révolutionné des domaines allant du traitement du langage naturel (NLP) à la vision par ordinateur (CV).
Conçu à l'origine pour résoudre les problèmes de mémoire limitée dans les réseaux neuronaux récurrents (RNN), les mécanismes d'attention traitent le problème de gradient en créant des connexions directes entre des parties distantes d'une séquence de données. Le processus est souvent décrit à l'aide d'une analogie de récupération impliquant trois composants : les requêtes, les clés et les valeurs.
En comparant la requête à différentes clés, le modèle calcule un score d'attention. Ce score détermine la quantité de valeur récupérée et utilisée pour former la sortie. Cela permet aux modèles de gérer des dépendances à long terme et de comprendre les relations entre les points de données, quelle que soit leur distance les uns par rapport aux autres.
Les mécanismes d'attention ont permis certaines des avancées les plus visibles de la technologie moderne.
Il est important de distinguer l'attention des réseaux neuronaux convolutifs (CNN). Alors que les CNN traitent les données localement à l'aide d'une fenêtre fixe (noyau) pour detect et les textures, l'attention traite les données globalement, en reliant chaque partie de l'entrée à toutes les autres parties.
Alors que les modèles de pointe tels que Ultralytics sont optimisés pour l' l'inférence en temps réel à l'aide de structures CNN avancées, les architectures hybrides telles que RT-DETR (Real-Time Detection Transformer) utilisent explicitement l'attention pour atteindre une grande précision. Les deux types de modèles peuvent être facilement formés et déployés à l'aide de la Ultralytics .
Python suivant montre comment effectuer une inférence à l'aide de RT-DETR, une architecture modèle
qui repose fondamentalement sur des mécanismes d'attention pour
détection d'objets.
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model which uses attention mechanisms
# This model captures global context effectively compared to pure CNNs
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of detections found via transformer attention
print(f"Detected {len(results[0].boxes)} objects using attention-based detection.")