Explore the role of a context window in AI and computer vision. Learn how [YOLO26](https://docs.ultralytics.com/models/yolo26/) uses temporal context for tracking.
Una ventana de contexto se refiere al intervalo máximo de datos de entrada (como caracteres de texto, segmentos de audio o fotogramas de vídeo) que un modelo de aprendizaje automático puede procesar y considerar simultáneamente durante su funcionamiento. En el ámbito de la inteligencia artificial (IA), este concepto es análogo a la memoria a corto plazo, ya que determina la cantidad de información que el sistema puede «ver» o recordar en un momento dado. Para los modelos de procesamiento del lenguaje natural (NLP) como Transformers, la ventana se mide en tokens, que definen la longitud del historial de conversación que la IA puede mantener. En la visión por ordenador (CV), el contexto suele ser temporal o espacial, lo que permite al modelo comprender el movimiento y la continuidad a lo largo de una secuencia de imágenes.
La utilidad práctica de una ventana de contexto va mucho más allá del simple almacenamiento de datos en búfer, ya que desempeña un papel fundamental en diversos ámbitos avanzados:
Para implementar con precisión las soluciones de IA, es útil diferenciar la ventana de contexto de términos similares que se encuentran en el glosario:
Aunque a menudo se analiza en el texto, el contexto es vital para las tareas de visión en las que la historia es importante. Lo siguiente
Python El fragmento utiliza el ultralytics paquete para realizar el seguimiento de objetos
. Aquí, el modelo mantiene un «contexto» de identidades de objetos a lo largo de los fotogramas de vídeo para garantizar que un
coche detectado en el fotograma 1 se reconozca como el mismo coche en el fotograma 10.
from ultralytics import YOLO
# Load the YOLO26n model (latest generation)
model = YOLO("yolo26n.pt")
# Perform object tracking on a video file
# The tracker uses temporal context to preserve object IDs across frames
results = model.track(source="path/to/video.mp4", show=True)
La gestión de las ventanas de contexto implica un equilibrio constante entre rendimiento y recursos. Una ventana demasiado corta puede provocar «amnesia del modelo», es decir, que la IA pierda track la narrativa o la trayectoria de los objetos. Sin embargo, las ventanas excesivamente grandes aumentan la latencia de la inferencia y el consumo de memoria, lo que dificulta la inferencia en tiempo real en los dispositivos de IA periféricos.
Para mitigar esto, los desarrolladores utilizan estrategias como la generación aumentada por recuperación (RAG), que permite a un modelo obtener información relevante de una base de datos vectorial externa en lugar de mantener todo en su ventana de contexto inmediata. Además, herramientas como Ultralytics ayudan a los equipos a gestionar grandes conjuntos de datos y supervisar el rendimiento de la implementación para optimizar la forma en que los modelos manejan el contexto en entornos de producción. Marcos como PyTorch siguen evolucionando y ofrecen un mejor soporte para los mecanismos de atención dispersa que permiten ventanas de contexto masivas con costes computacionales lineales en lugar de cuadráticos. Las innovaciones en la arquitectura de los modelos, como las observadas en la transición a las capacidades integrales de YOLO26, siguen perfeccionando la forma en que se procesa el contexto visual para obtener la máxima eficiencia.