术语表

上下文窗口

了解上下文窗口如何增强 NLP、时间序列分析和视觉 AI 中的 AI/ML 模型,从而提高预测结果和准确性。

上下文窗口是机器学习(ML)中的一个基本概念,指的是模型在处理连续数据时一次可考虑的固定信息量。可以将其视为模型的短期记忆。无论数据是文本、股票价格序列还是视频帧,上下文窗口都定义了模型能 "看到 "多少最近的过去,从而理解当前输入并做出准确预测。这种机制对于上下文是解释关键的任务至关重要,例如自然语言处理(NLP)时间序列分析

上下文窗口如何工作?

按顺序处理数据的模型,如递归神经网络(RNN),尤其是变换器,依赖于上下文窗口。当一个模型按顺序分析一个数据时,它不会孤立地查看单个数据点。相反,它会将该数据点与前面特定数量的数据点一起分析,这组数据点就是上下文窗口。例如,在语言模型中,要预测一个句子中的下一个单词,模型会查看最后几个单词。它所考虑的单词数量由上下文窗口大小决定。这有助于模型捕捉对理解连续信息至关重要的依赖关系和模式。有关语言模型工作原理的概述,请参阅LLM 简介

现实世界人工智能/移动语言应用中的语境窗口示例

上下文窗口的概念与许多人工智能应用密不可分:

  • 聊天机器人和虚拟助理现代聊天机器人使用上下文窗口来保存对话历史。这使它们能够理解后续问题、回溯之前的内容,并提供更自然、更连贯的互动,避免重复或不相关的回复。谷歌的双子座(Gemini)等模型利用大型上下文窗口进行复杂的对话。
  • 用于金融预测的时间序列分析金融模型分析过去股票价格、经济指标或交易量的序列,以预测未来的市场走势。窗口大小决定了历史数据对预测的影响程度。金融领域的人工智能通常依赖于精心调整的上下文窗口。
  • 预测文本算法当您在智能手机上打字时,键盘会根据上下文窗口中的前一个单词提示下一个单词,从而提高打字速度和准确性。这项功能是小型高效上下文窗口的直接应用。

主要考虑因素和相关概念

选择合适的上下文窗口大小需要权衡利弊。较大的窗口可以捕捉到更多的上下文,并有可能提高模型的准确性,尤其是对于需要远距离依赖理解的任务而言。但是,它们需要更多的内存和计算能力,可能会减慢训练和推理速度。目前正在开发Transformer-XL等技术,以更高效地处理更长的上下文,卡内基梅隆大学的研究对此进行了详细阐述。

将上下文窗口与相关术语区分开来非常有用:

  • 感受野虽然概念上相似(输入区域影响输出),但感受野通常指卷积神经网络(CNN)处理的图像等输入的空间范围。上下文窗口通常适用于连续数据(文本、时间序列、视频帧)。
  • 序列长度:在许多模型中,尤其是变形模型,上下文窗口大小直接决定了模型一次可处理的最大序列长度。较长的序列可能需要截断或使用专门的架构进行处理。这与序列到序列模型高度相关。

PyTorch(通过PyTorch 官方网站)和TensorFlow(在TensorFlow 官方网站上有详细介绍)等框架提供了用于构建模型的工具,其中上下文窗口是一个关键参数。高效的模型部署通常需要优化上下文处理,这可以通过Ultralytics HUB 等平台进行管理。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板