敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

上下文窗口

了解上下文窗口如何增强 NLP、时间序列分析和视觉 AI 中的 AI/ML 模型,从而提高预测能力和准确性。

上下文窗口是机器学习 (ML)中的一个基本概念,指的是模型在处理顺序数据时一次可以考虑的固定信息量。可以将其视为模型的短期记忆。无论数据是文本、股票价格序列还是视频中的帧,上下文窗口都定义了模型可以“看到”多少最近的过去,以了解当前输入并做出准确的预测。这种机制对于上下文是解释关键的任务至关重要,例如在自然语言处理 (NLP)时间序列分析中。

上下文窗口如何工作?

循环神经网络 (RNN),尤其是Transformer这样按顺序处理数据的模型依赖于上下文窗口。当模型分析序列中的一段数据时,它不仅仅是孤立地查看该单个数据点。相反,它会查看该数据点以及特定数量的先前数据点——这组点就是上下文窗口。例如,在语言模型中,为了预测句子中的下一个单词,模型将查看最后几个单词。它考虑的单词数量由其上下文窗口大小决定。这有助于模型捕获对于理解顺序信息至关重要的依赖关系和模式。有关语言模型如何工作的概述,请参见此LLM 简介

真实世界 AI/ML 应用中的上下文窗口示例

上下文窗口的概念是许多 AI 应用不可或缺的一部分:

主要考量因素与相关概念

选择合适的上下文窗口大小需要权衡。较大的窗口可以捕获更多的上下文,并可能提高模型准确性,尤其是在需要长程依赖理解的任务中。然而,它们需要更多的内存和计算能力,可能会减慢训练和推理速度。诸如 Transformer-XL 之类的技术正在开发中,以更有效地处理更长的上下文,详情请参阅卡内基梅隆大学的研究。

区分上下文窗口和相关术语非常有用:

  • 感受野: 虽然概念相似(影响输出的输入区域),但感受野通常指的是输入中的空间范围,例如由 卷积神经网络 (CNN) 处理的图像。上下文窗口通常适用于序列数据(文本、时间序列、视频帧)。
  • 序列长度: 在许多模型中,特别是Transformer模型,上下文窗口大小直接定义了模型一次可以处理的最大序列长度。更长的序列可能需要被截断或使用专门的架构进行处理。这与序列到序列模型高度相关。

诸如 PyTorch(通过 PyTorch 官方网站)和 TensorFlow(在 TensorFlow 官方网站 上有详细介绍)之类的框架提供了构建模型的工具,其中上下文窗口是一个关键参数。高效的模型部署通常需要优化上下文处理,这可以通过 Ultralytics HUB 等平台进行管理。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板