术语表

自我关注

探索人工智能中自我关注的力量,用上下文感知的精确性彻底改变 NLP、计算机视觉和语音识别。

自我关注是一种能让模型权衡单一输入序列中不同元素重要性的机制。它允许模型在处理特定元素时选择性地关注最相关的部分,而不是平等对待输入的每一部分。这种能力对于理解数据中的上下文、长距离依赖和关系至关重要,是许多现代人工智能(AI)架构的基石,尤其是Transformer。它在开创性论文《注意力就是你所需要的一切》中得到了著名的介绍,该论文彻底改变了自然语言处理(NLP)领域。

自我关注如何发挥作用

自我关注的核心是为输入序列中相对于当前正在处理的元素的每个其他元素分配一个 "关注分值"。这是通过为每个输入元素创建三个向量来实现的:查询 (Q)、键 (K) 和值 (V)。

  1. 查询:代表正在 "寻找 "上下文的当前元素。
  2. 键:代表序列中的所有元素,可与查询进行比较,以查找相关信息。
  3. 值:代表每个元素的实际内容,将根据注意力分数进行汇总。

对于给定的查询,该机制会计算其与序列中所有键的相似度。然后,这些相似度分数会被转换成权重(通常使用软最大值函数),权重决定了每个元素的 "值 "应受到多少关注。查询的最终输出是所有 "值 "的加权总和,通过整个序列的上下文为该元素创建一个新的表示。这一过程是大型语言模型(LLM)运行的关键部分。在Jay Alammar 的博客等资源中,可以找到对 Q-K-V 过程的出色可视化解释。

自我关注与关注机制

自我注意是一种特殊的注意机制。关键区别在于查询、关键和值向量的来源。

  • 自我关注:所有三个向量(Q、K、V)都来自相同的输入序列。这样,模型就能分析单个句子或图像的内部关系。
  • 一般注意(或交叉注意):查询向量可能来自一个序列,而键和值向量则来自另一个序列。这在序列到序列任务(如机器翻译)中很常见,在这种情况下,解码器(生成翻译文本)会关注编码器对源文本的表示。

人工智能和计算机视觉中的应用

自我注意最初在 NLP 中的文本摘要和翻译等任务中得到普及,但事实证明,它在计算机视觉(CV)中也非常有效。

  • 自然语言处理:在 "机器人拿起扳手,因为它很重 "这样的句子中,自我注意力能让模型正确地将 "它 "与 "扳手 "而不是 "机器人 "联系起来。这种理解对于BERTGPT-4 等模型来说至关重要。
  • 计算机视觉: 视觉转换器(ViT)模型将自我注意力应用于图像的片段,使其能够学习视觉场景不同部分之间的关系,从而完成图像分类等任务。一些物体检测模型还结合了基于注意力的模块,以完善特征图并提高准确性。虽然有些模型(如YOLO12)使用了注意力,但在大多数使用情况下,我们推荐稳健高效的Ultralytics YOLO11

未来发展方向

研究不断完善自我注意机制,旨在提高计算效率(例如FlashAttention和稀疏注意变体等方法)和扩大适用性。随着人工智能模型日益复杂,自我注意有望继续成为一项基石技术,推动从机器人等专业人工智能应用到人工通用智能(AGI)等领域的进步。Ultralytics HUB等工具和平台有助于训练部署包含这些先进技术的模型,这些模型通常可通过Hugging Face等资源库获得,并采用PyTorchTensorFlow 等框架开发。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板