了解上下文窗口如何增强 NLP、时间序列分析和视觉 AI 中的 AI/ML 模型,从而提高预测结果和准确性。
上下文窗口是机器学习(ML)中的一个基本概念,指的是模型在处理连续数据时一次可考虑的固定信息量。可以将其视为模型的短期记忆。无论数据是文本、股票价格序列还是视频帧,上下文窗口都定义了模型能 "看到 "多少最近的过去,从而理解当前输入并做出准确预测。这种机制对于上下文是解释关键的任务至关重要,例如自然语言处理(NLP)和时间序列分析。
按顺序处理数据的模型,如递归神经网络(RNN),尤其是变换器,依赖于上下文窗口。当一个模型按顺序分析一个数据时,它不会孤立地查看单个数据点。相反,它会将该数据点与前面特定数量的数据点一起分析,这组数据点就是上下文窗口。例如,在语言模型中,要预测一个句子中的下一个单词,模型会查看最后几个单词。它所考虑的单词数量由上下文窗口大小决定。这有助于模型捕捉对理解连续信息至关重要的依赖关系和模式。有关语言模型工作原理的概述,请参阅LLM 简介。
上下文窗口的概念与许多人工智能应用密不可分:
选择合适的上下文窗口大小需要权衡利弊。较大的窗口可以捕捉到更多的上下文,并有可能提高模型的准确性,尤其是对于需要远距离依赖理解的任务而言。但是,它们需要更多的内存和计算能力,可能会减慢训练和推理速度。目前正在开发Transformer-XL等技术,以更高效地处理更长的上下文,卡内基梅隆大学的研究对此进行了详细阐述。
将上下文窗口与相关术语区分开来非常有用:
PyTorch(通过PyTorch 官方网站)和TensorFlow(在TensorFlow 官方网站上有详细介绍)等框架提供了用于构建模型的工具,其中上下文窗口是一个关键参数。高效的模型部署通常需要优化上下文处理,这可以通过Ultralytics HUB 等平台进行管理。