了解上下文窗口如何增强 NLP、时间序列分析和视觉 AI 中的 AI/ML 模型,从而提高预测能力和准确性。
上下文窗口定义了最大信息量--文本序列、音频样本或视觉数据--机器学习 (ML) 模型可以处理的最大信息量。 的最大信息量。 的最大信息量。作为模型的短时记忆,这个固定跨度决定了 系统能 "看到 "多少输入序列,为当前预测提供信息。 预测。在以下领域 自然语言处理(NLP) 到视频理解等领域,上下文窗口的大小 窗口的大小是一个关键的架构参数,直接影响模型保持一致性的能力、 理解长期依赖关系和生成准确输出的能力。
为顺序数据设计的深度学习架构,如 递归神经网络(RNN)和 无处不在的 Transformer在很大程度上依赖于上下文 窗口机制。当 大语言模型(LLM)生成文本时、 它不会孤立地分析当前单词,而是在上下文窗口内评估前面的单词,以计算下一个标记的概率。 计算下一个标记的概率。
自我关注机制允许模型在这个窗口内权衡 输入数据不同部分的重要性。不过,这种功能需要 计算成本。标准注意力机制的规模与序列长度成二次方关系,这意味着窗口大小增加一倍 窗口大小会使所需内存翻两番。 GPU.斯坦福大学等机构的研究人员 斯坦福大学等机构的研究人员开发了 Flash Attention 等优化技术来降低这些成本,使 这样,模型就能一次性处理整个文档或分析长视频序列。 长视频序列。
上下文窗口的实际用途横跨人工智能(AI)的各个领域。 人工智能 (AI) 领域:
虽然上下文窗口经常在文本生成中被讨论,但在视频分析中,它们在概念上也是至关重要的。 在视频分析中,上下文就是帧序列。下面的Python 代码段演示了如何使用Ultralytics YOLO11 模型进行物体跟踪,该模型依靠时间上下文在视频流中保持物体身份。
from ultralytics import YOLO
# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")
# Track objects in a video, using temporal context to maintain IDs
# The model processes frames sequentially, maintaining history
results = model.track(source="https://docs.ultralytics.com/modes/track/", show=True)
要完全理解这一概念,最好将上下文窗口与机器学习术语表中的类似术语区分开来。 学习术语表中的类似术语加以区分:
选择最佳上下文窗口大小需要在性能和资源消耗之间进行权衡。窗口过短 窗口可能会导致模型遗漏重要的长程依赖关系,从而导致对早期输入的 "健忘症"。 输入的 "健忘症"。相反,过长的窗口会增加 推理延迟,并需要大量 内存,从而使模型在边缘设备上的部署复杂化。 边缘设备上部署模型。
框架,如 PyTorch和 TensorFlow等框架提供了管理这些序列的工具,研究人员也不断 发布方法,以有效扩展上下文功能。例如 检索增强生成(RAG) 等技术允许模型访问庞大的外部向量数据库,而无需无限大的内部上下文窗口、 缩小了静态知识与动态处理之间的差距。展望未来,像即将推出的 YOLO26 等架构旨在进一步优化视觉上下文的端到端处理方式,以实现更高的性能。 端到端处理方式,以实现更高的效率。