Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Attention Sinks

Découvre comment les « attention sinks » stabilisent les LLM et VLM pour la génération de séquences infinies. Apprends à optimiser la mémoire et à déployer une IA stable avec Ultralytics YOLO26.

Les attention sinks sont un phénomène critique découvert dans l'architecture des large language models (LLMs) et des vision-language models (VLMs) modernes qui assure la stabilité lors de la génération continue de textes ou de données longs. Dans un attention mechanism, les réseaux de neurones attribuent dynamiquement des "poids" à différentes parties de l'entrée. Les chercheurs ont observé que les modèles autorégressifs déversent intrinsèquement une quantité massive de scores d'attention excédentaires sur les tout premiers tokens d'une séquence, indépendamment de leur signification sémantique réelle. Ces tokens initiaux agissent comme un "attention sink", fournissant un ancrage mathématique qui empêche les scores d'attention du modèle de s'effondrer. En conservant en permanence ces tokens sinks dans le KV cache du modèle, tu peux permettre une génération de séquence infinie sans dégrader la précision ou provoquer des plantages dus aux limites de mémoire.

Link to this sectionComment les attention sinks stabilisent les modèles#

Le besoin d'attention sinks découle de l'opération Softmax utilisée dans les Transformers. Comme les scores d'attention doivent toujours totaliser 1, le modèle a besoin d'un endroit pour allouer l'attention inutile lors du traitement de données hautement localisées. Les premiers tokens d'un prompt absorbent naturellement cet excédent.

Historiquement, lors de la génération de très longues séquences, les ingénieurs utilisaient des techniques de fenêtrage qui évacuaient les anciens tokens de la mémoire. Cependant, supprimer les tokens sinks initiaux provoquait un effondrement immédiat des performances. Les implémentations modernes, telles que StreamingLLM, conservent explicitement ces tokens initiaux aux côtés des tokens les plus récents. Cette approche hautement optimisée de la gestion de la mémoire est activement explorée dans les OpenAI vision developments et les recherches de Google DeepMind, et est nativement supportée au sein de l'PyTorch ecosystem.

Link to this sectionDifférencier les concepts d'attention associés#

Pour bien comprendre comment les modèles d'IA optimisent le contexte, il est utile de comparer les attention sinks avec d'autres stratégies matérielles et de mémoire :

  • Attention Sinks vs. Sliding Window Attention : Le sliding window attention restreint la focalisation du modèle à un nombre fixe de tokens récents pour économiser la mémoire. Cependant, les fenêtres glissantes strictes écartent les premiers tokens, ce qui conduit à une instabilité. Les attention sinks modifient cela en ancrant la fenêtre avec ces premiers tokens cruciaux.
  • Attention Sinks vs. Flash Attention : Flash Attention est une optimisation au niveau matériel qui accélère les lectures et écritures en mémoire sur le GPU. Les attention sinks, à l'inverse, sont une découverte architecturale sur les tokens qui doivent être conservés en mémoire pour maintenir la stabilité logique.

Link to this sectionApplications concrètes#

La découverte des attention sinks a ouvert des capacités de traitement continu hautement efficaces à travers diverses industries.

  1. Agents IA et chatbots continus : En conservant les attention sinks, un AI agent ou un bot de service client peut diffuser un dialogue ininterrompu pendant des heures. Il oublie sélectivement les tokens intermédiaires tout en conservant le sink initial et le contexte récent, empêchant les erreurs de dépassement de mémoire tout en préservant la cohérence conversationnelle.

  2. Compréhension vidéo en temps réel : Dans la smart surveillance et la surveillance continue, maintenir une fenêtre de contexte stable est critique. Les modèles peuvent analyser des flux vidéo continus pendant des jours, égalant l'efficacité des architectures de vision optimisées pour l'Edge.

Link to this sectionMise en œuvre d'une inférence continue efficace#

Bien que les attention sinks optimisent principalement les modèles génératifs massifs, l'application de boucles d'inférence efficaces et soucieuses de la mémoire est universellement importante en computer vision (CV). Lors du traitement de flux vidéo continus avec Ultralytics YOLO26, l'exploitation des générateurs Python assure la stabilité de la mémoire sur de longues périodes, similaire à la gestion d'une fenêtre de contexte localisée.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for efficient, real-time edge processing
model = YOLO("yolo26n.pt")

# Process a continuous video stream efficiently without memory overflow
results = model.predict(source="rtsp://continuous_camera_stream", stream=True)

# Iterate through the generator to maintain a stable memory footprint over time
for frame_result in results:
    print(f"Detected {len(frame_result.boxes)} objects in the current frame.")

Le passage à l'échelle de ces pipelines object detection continus et efficaces pour une utilisation en entreprise nécessite des outils de gestion robustes. Tu peux utiliser l'Ultralytics Platform pour simplifier le model deployment et la gestion automatisée des datasets, permettant aux équipes de construire des applications de vision stables et durables avec facilité.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique