Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Fenêtre de contexte

Découvrez comment les fenêtres de contexte améliorent les modèles d'IA/ML dans le NLP, l'analyse des séries chronologiques et la vision artificielle, améliorant ainsi les prédictions et la précision.

Une fenêtre contextuelle définit la quantité maximale d'informations - séquences de texte, échantillons audio ou données visuelles - qu'un modèle d'apprentissage machine (ML) peut traiter et analyser. qu'un modèle d'apprentissage machine (ML) peut traiter et traiter et prendre en compte à tout moment. Agissant comme la mémoire à court terme du modèle, cette fenêtre fixe détermine la quantité de la séquence d'entrée que le système peut "voir". de la séquence d'entrée que le système peut "voir" pour informer sa prédiction actuelle. prédiction actuelle. Dans des domaines allant du traitement du langage naturel (NLP) à la compréhension vidéo, la taille de la fenêtre est un paramètre architectural critique qui influence directement la capacité d'un modèle à maintenir la cohérence, à comprendre les dépendances à long terme et à générer des résultats précis, à comprendre les dépendances à long terme et à produire des résultats précis.

Mécanismes du contexte

Les architectures d'apprentissage profond conçues pour les données séquentielles, telles que réseaux neuronaux récurrents (RNN) et l'omniprésent l'omniprésent Transformer, s'appuient fortement sur le mécanisme de fenêtre de la fenêtre contextuelle. Lorsqu'un modèle de langage étendu (LLM ) génère du texte, il n'analyse pas le mot en cours dans son intégralité, il n'analyse pas le mot actuel de manière isolée, mais évalue les mots précédents dans sa fenêtre contextuelle pour calculer la probabilité du prochain mot. calculer la probabilité du prochain mot.

Le mécanisme d'auto-attention permet aux modèles d'évaluer l'importance des différentes parties des données d'entrée à l'intérieur de cette fenêtre. Cependant, cette capacité s'accompagne d'un coût de calcul. Les mécanismes d'attention standard s'échelonnent de manière quadratique avec la longueur de la séquence, ce qui signifie que doubler la taille de la fenêtre peut quadrupler la mémoire nécessaire au système. peut quadrupler la mémoire nécessaire au mécanisme d'attention. GPU. Des chercheurs d'institutions telles que Stanford University ont développé des optimisations telles que Flash Attention pour atténuer ces coûts, ce qui permet des fenêtres contextuelles beaucoup plus longues qui permettent aux modèles de traiter des documents entiers ou d'analyser de longues séquences vidéo en un seul passage. en un seul passage.

Applications concrètes

L'utilité pratique d'une fenêtre contextuelle s'étend à divers domaines de l'intelligence artificielle (IA). l'intelligence artificielle (IA):

  • IA conversationnelle et Chatbots : Les chatbots modernes chatbots et virtuels modernes utilisent des fenêtres contextuelles maintenir le fil d'un dialogue. Une fenêtre plus grande permet à l'agent de se rappeler des détails mentionnés plus tôt dans la conversation, ce qui réduit les répétitions et améliore l'expérience de l'utilisateur. conversation, ce qui réduit les répétitions et améliore l'expérience de l'utilisateur.
  • Suivi d'objets vidéo : Dans le domaine de la vision par ordinateur, les algorithmes de suivi doivent vision par ordinateur, les algorithmes de suivi doivent identifier des objets et maintenir leur identité sur plusieurs images. Ici, le "contexte" est temporel. utilise les informations des images précédentes pour prédire la trajectoire d'un objet et gérer les occlusions. Le modèle Ultralytics YOLO11 prend en charge de suivi d'objets qui utilisent cette cohérence temporelle temporelle pour surveiller avec précision les mouvements dans les flux vidéo en temps réel.
  • Prévisions financières : Les algorithmes d'investissement utilisent la modélisation prédictive pour analyser les tendances du marché. En définissant une fenêtre contextuelle spécifique sur les prix historiques des actions, ces modèles peuvent identifier des modèles et des cycles récurrents pertinents pour les mouvements futurs des prix, ce qui constitue un élément essentiel de la prévision financière. récurrents pertinents pour les mouvements de prix futurs, une composante essentielle des stratégies de trading algorithmique. stratégies de trading algorithmique.

Exemple : Contexte temporel dans l'analyse vidéo

Alors que les fenêtres contextuelles sont souvent abordées dans la génération de texte, elles sont conceptuellement vitales dans l'analyse vidéo où le contexte est la séquence d'images. le contexte est la séquence d'images. L'extrait Python suivant montre comment utiliser le modèle Ultralytics YOLO11 d'Ultralytics pour le suivi d'objets, qui s'appuie sur le contexte temporel pour maintenir l'identité des objets dans un flux vidéo.

from ultralytics import YOLO

# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Track objects in a video, using temporal context to maintain IDs
# The model processes frames sequentially, maintaining history
results = model.track(source="https://docs.ultralytics.com/modes/track/", show=True)

Distinguer les concepts apparentés

Pour bien comprendre le concept, il est utile de différencier la fenêtre contextuelle des termes similaires que l'on trouve dans les glossaires de l'apprentissage automatique. dans les glossaires de l'apprentissage automatique :

  • Fenêtre contextuelle ou champ réceptif: Bien que les deux termes fassent référence à l'étendue des données d'entrée qu'un modèle perçoit, le "champ réceptif" est généralement utilisé dans les cas suivants dans les réseaux neuronaux convolutifs (CNN) pour décrire la zone spatiale d'une image qui influence un neurone spécifique. En revanche, la "fenêtre contextuelle" implique généralement une étendue séquentielle ou temporelle, telle que la longueur d'un texte ou la durée d'une vidéo.
  • Fenêtre contextuelle et tokenisation: La tokenisation est le processus de décomposition des données en unités plus petites (tokens). La limite de la fenêtre contextuelle est souvent La limite de la fenêtre contextuelle est souvent exprimée en termes de ces tokens (par exemple, une "limite de 128k tokens"). Par conséquent, l'efficacité du a donc un impact direct sur la quantité d'informations réelles qui s'inscrivent dans la fenêtre de contexte fixée.
  • Fenêtre contextuelle et taille du lot: La taille du lot La taille du lot fait référence au nombre d'échantillons indépendants traités en parallèle lors de l'apprentissage du modèle. l'apprentissage du modèle, tandis que la fenêtre contextuelle se réfère à la la taille ou la longueur d'un seul échantillon le long de sa dimension séquentielle.

Défis et optimisation

La sélection de la taille optimale de la fenêtre contextuelle implique un compromis entre les performances et la consommation de ressources. Une fenêtre Une fenêtre courte peut faire manquer au modèle des dépendances importantes à long terme, entraînant une "amnésie" concernant les entrées antérieures. antérieures. Inversement, une fenêtre excessivement longue augmente la latence de l'inférence et nécessite des ressources substantielles. latence d'inférence et nécessite une mémoire importante, ce qui peut compliquer le déploiement du modèle. mémoire importante, ce qui peut compliquer le déploiement périphériques.

Des frameworks comme PyTorch et TensorFlow offrent des outils pour gérer ces séquences, et les chercheurs continuent à publier des méthodes pour étendre les capacités de contexte de manière efficace. de publier des méthodes permettant d'étendre efficacement les capacités contextuelles. Par exemple, des techniques comme la génération augmentée par récupération (RAG) permettent aux modèles d'accéder à de vastes bases de données vectorielles externes sans avoir besoin d'une fenêtre de contexte interne infiniment grande, combler le fossé entre la connaissance statique et le traitement dynamique. À l'avenir, des architectures telles que le futur YOLO26 visent à optimiser davantage la manière dont le contexte visuel est traité de bout en bout pour une efficacité encore plus grande. le traitement du contexte visuel de bout en bout pour une efficacité encore plus grande.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant