深圳Yolo 视觉
深圳
立即加入
词汇表

上下文窗口

了解上下文窗口如何增强 NLP、时间序列分析和视觉 AI 中的 AI/ML 模型,从而提高预测能力和准确性。

上下文窗口定义了最大信息量--文本序列、音频样本或视觉数据--机器学习 (ML) 模型可以处理的最大信息量。 最大信息量。 的最大信息量。作为模型的短时记忆,这个固定跨度决定了 系统能 "看到 "多少输入序列,为当前预测提供信息。 预测。在以下领域 自然语言处理(NLP)视频理解等领域,上下文窗口的大小 窗口的大小是一个关键的架构参数,直接影响模型保持一致性的能力、 理解长期依赖关系和生成准确输出的能力。

背景机制

为顺序数据设计的深度学习架构,如 递归神经网络(RNN)和 无处不在的 Transformer在很大程度上依赖于上下文 窗口机制。当 大语言模型(LLM)生成文本时、 它不会孤立地分析当前单词,而是在上下文窗口内评估前面的单词,以计算下一个标记的概率。 计算下一个标记的概率。

自我关注机制允许模型在这个窗口内权衡 输入数据不同部分的重要性。不过,这种功能需要 计算成本。标准注意力机制的规模与序列长度成二次方关系,这意味着窗口大小增加一倍 窗口大小会使所需内存翻两番。 GPU.斯坦福大学等机构的研究人员 斯坦福大学等机构的研究人员开发了 Flash Attention 等优化技术来降低这些成本,使 这样,模型就能一次性处理整个文档或分析长视频序列。 长视频序列。

实际应用

上下文窗口的实际用途横跨人工智能(AI)的各个领域。 人工智能 (AI) 领域:

  • 对话式人工智能和聊天机器人:现代 聊天机器人虚拟助手使用上下文窗口来 保持对话的主线。较大的窗口可以让代理回忆起对话中较早提及的细节,减少重复并改善用户体验。 对话中提到的细节,从而减少重复并改善用户体验。
  • 视频对象跟踪在 在计算机视觉中,跟踪算法必须 在计算机视觉中,跟踪算法必须识别物体并在多个帧中保持其特征。在这里,"上下文 "是时间性的。 模型利用过去帧的信息来预测物体的轨迹并处理遮挡。在这里,"上下文 "是时间性的。 Ultralytics YOLO11架构支持 物体跟踪功能,利用这种时间一致性 一致性来准确监控实时视频馈送中的移动。
  • 财务预测:投资算法使用 预测模型来分析市场趋势。 通过对历史股价设置特定的背景窗口,这些模型可以识别与未来价格走势相关的模式和重复出现的 周期,这是算法交易策略的核心组成部分。 算法交易策略的核心组成部分。

实例:视频分析中的时间背景

虽然上下文窗口经常在文本生成中被讨论,但在视频分析中,它们在概念上也是至关重要的。 在视频分析中,上下文就是帧序列。下面的Python 代码段演示了如何使用Ultralytics YOLO11 模型进行物体跟踪,该模型依靠时间上下文在视频流中保持物体身份。

from ultralytics import YOLO

# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Track objects in a video, using temporal context to maintain IDs
# The model processes frames sequentially, maintaining history
results = model.track(source="https://docs.ultralytics.com/modes/track/", show=True)

区分相关概念

要完全理解这一概念,最好将上下文窗口与机器学习术语表中的类似术语区分开来。 学习术语表中的类似术语加以区分:

  • 上下文窗口与感知区域 虽然这两个术语都指模型感知的输入数据范围,但 "感知区域 "通常用于 在 卷积神经网络(CNN) 来描述影响特定神经元的图像空间区域。相比之下,"上下文窗口 通常意味着顺序或时间跨度,如文本长度或视频持续时间。
  • 上下文窗口与标记化 标记化是将输入分解成更小单位(标记)的过程。上下文窗口限制通常 用这些标记来表示(例如,"128k 标记限制")。因此 因此,标记化器的效率直接影响到有多少实际信息可以容纳在固定的上下文窗口中。
  • 上下文窗口与批量大小批次 大小指的是模型训练过程中并行处理的独立样本数量,而上下文窗口指的是模型训练过程中 而上下文窗口指是单个样本在其序列维度上的大小或长度。 而上下文窗口指的是单个样本在其序列维度上的大小或长度。

挑战与优化

选择最佳上下文窗口大小需要在性能和资源消耗之间进行权衡。窗口过短 窗口可能会导致模型遗漏重要的长程依赖关系,从而导致对早期输入的 "健忘症"。 输入的 "健忘症"。相反,过长的窗口会增加 推理延迟,并需要大量 内存,从而使模型在边缘设备上的部署复杂化。 边缘设备上部署模型。

框架,如 PyTorchTensorFlow等框架提供了管理这些序列的工具,研究人员也不断 发布方法,以有效扩展上下文功能。例如 检索增强生成(RAG) 等技术允许模型访问庞大的外部向量数据库,而无需无限大的内部上下文窗口、 缩小了静态知识与动态处理之间的差距。展望未来,像即将推出的 YOLO26 等架构旨在进一步优化视觉上下文的端到端处理方式,以实现更高的性能。 端到端处理方式,以实现更高的效率。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入