Glossaire

Fenêtre mobile : Attention

Découvrez comment l'attention par fenêtre glissante optimise l'efficacité des transformateurs en réduisant les coûts de calcul. Découvrez son rôle dans le traitement du langage naturel et la vision par ordinateur avec Ultralytics .

L'attention à fenêtre glissante est une variante optimisée du mécanisme d'attention standard utilisé dans les architectures Transformer modernes afin d' améliorer considérablement l'efficacité computationnelle. Dans l'auto-attention traditionnelle, chaque token d'une séquence doit traiter tous les autres tokens, ce qui entraîne des coûts de mémoire et de calcul qui augmentent de manière quadratique avec la longueur de la séquence. L'attention à fenêtre glissante résout ce goulot d'étranglement en limitant la portée d'un token à un voisinage local de taille fixe, ou « fenêtre », de tokens environnants. Cette approche réduit la complexité de quadratique à linéaire, ce qui en fait un élément essentiel pour étendre la fenêtre contextuelle dans les modèles massifs d'intelligence artificielle (IA).

En empilant plusieurs couches de réseaux neuronaux qui utilisent cette technique, les modèles peuvent progressivement acquérir une compréhension globale des données d'entrée, à mesure que les fenêtres localisées se chevauchent et partagent des informations à des niveaux plus profonds du réseau. Ce concept fondamental est largement étayé par les travaux de rechercheGoogle et est activement mis en œuvre dans des frameworks modernes tels que PyTorch.

Applications concrètes

La capacité à traiter d'énormes quantités de données sans épuiser la mémoire de calcul ouvre la voie à des fonctionnalités avancées dans divers domaines de l'IA :

Résumé de longs documents en TALN: pour les grands modèles linguistiques (LLM) chargés d'analyser des contrats juridiques volumineux, des référentiels de code ou des rapports financiers, l'attention par fenêtre glissante garantit que le modèle peut lire des milliers de tokens simultanément. Cela évite les pannes de mémoire tout en préservant la cohérence narrative nécessaire à un résumé de texte précis.
Tâches de vision haute résolution: En vision par ordinateur (CV), le traitement d'images de plusieurs gigapixels — telles que celles utilisées dans l'analyse d'images médicales ou l'analyse d'images satellites— génère d'énormes séquences de données. En concentrant leur attention sur des zones spécifiques, les modèles peuvent effectuer une segmentation détaillée des images et identifier des anomalies infimes sans réduire de manière excessive la résolution de l'image d'origine.

Différencier les termes apparentés

Pour comprendre comment les architectures réseau optimisent le traitement des données, il est utile de distinguer l'attention à fenêtre glissante des mécanismes similaires :

Attention à fenêtre glissante vs. Attention déformable: Alors que l'attention à fenêtreglissante utilise un bloc de tokens strict et contigu basé sur la proximité séquentielle, l'attention déformable permet au réseau d'apprendre des points d'échantillonnage dynamiques. L'attention déformable se concentre sur des emplacements arbitraires et dispersés en fonction du contenu visuel réel plutôt que sur une grille fixe.
Attention par fenêtre glissante vs. Attention clairsemée: La fenêtre glissante est un sous-ensemble spécifique de l'attention clairsemée. Alors que l'attention clairsemée est un terme général qui englobe des schémas de tokens aléatoires, par pas ou globaux visant à réduire l'utilisation de la mémoire, l'approche par fenêtre glissante limite strictement l'attention aux tokens spatiaux ou temporels voisins.

Mise en œuvre d'architectures efficaces

Pour les développeurs qui conçoivent des systèmes de détection d'objets à haute vitesse, il est essentiel de s'appuyer sur des architectures hautement optimisées. Si les mécanismes d'attention bruts sont puissants, les modèles de bout en bout tels que Ultralytics offrent des performances de pointe en alliant une extraction avancée des caractéristiques à l'efficacité des périphériques en périphérie.

from ultralytics import YOLO

# Load the recommended YOLO26 model for high-resolution vision tasks
model = YOLO("yolo26x.pt")

# Perform inference on a large image, utilizing optimized internal processing
results = model.predict(source="large_aerial_map.jpg", imgsz=1024, show=True)

# Output the number of detected instances
print(f"Detected {len(results[0].boxes)} objects in the high-resolution input.")

La mise à l'échelle de ces pipelines sophistiqués, du prototypage local à la production d'entreprise, nécessite une infrastructure robuste. La Ultralytics simplifie entièrement ce processus en proposant une interface intuitive pour l'annotation automatisée des ensembles de données, un entraînement dans le cloud sans interruption et une surveillance des modèles en temps réel. Cela permet aux équipes de tirer parti des avantages de modèles hautement efficaces et à large contexte, et ce, de manière transparente, sur divers environnements matériels.

Fenêtre mobile : Attention

Exportation vers plus de 17 formats. Déploiement dans 43 régions du monde.

Entraînez YOLO26 sur des GPU H100 pour 2,39 $/heure.

Des licences d'entreprise flexibles pour donner vie à vos projets d'IA visuelle.

Des licences d'entreprise conçues pour dynamiser votre prochain projet

Étiquetez jusqu'à 10 fois plus vite grâce à l'annotation intelligente

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.

Applications concrètes

Différencier les termes apparentés

Mise en œuvre d'architectures efficaces

En savoir plus dans cette catégorie

Guide d'annotation des polygones avec Ultralytics

Les temps forts de la présence Ultralytics salon de Hanovre 2026 en Allemagne

Choisir entre PyTorch TensorFlow des projets de vision par ordinateur

Construisons ensemble l'avenir de l'IA !

Fenêtre mobile : Attention

Exportation vers plus de 17 formats. Déploiement dans 43 régions du monde.

Entraînez YOLO26 sur des GPU H100 pour 2,39 $/heure.

Des licences d'entreprise flexibles pour donner vie à vos projets d'IA visuelle.

Des licences d'entreprise conçues pour dynamiser votre prochain projet

Étiquetez jusqu'à 10 fois plus vite grâce à l'annotation intelligente

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.

Applications concrètes

Différencier les termes apparentés

Mise en œuvre d'architectures efficaces

En savoir plus dans cette catégorie

Guide d'annotation des polygones avec Ultralytics

Les temps forts de la présence Ultralytics salon de Hanovre 2026 en Allemagne

Choisir entre PyTorch TensorFlow des projets de vision par ordinateur

Construisons ensemble l'avenir de l'IA !

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.