敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

自注意力机制

探索 AI 中自注意力机制的强大功能,通过上下文感知的精确度彻底改变 NLP、计算机视觉和语音识别。

自注意力机制是一种使模型能够衡量单个输入序列中不同元素重要性的机制。它允许模型在处理特定元素时,有选择地关注最相关的部分,而不是平等地对待输入的每个部分。这种能力对于理解上下文、长程依赖关系以及数据中的关系至关重要,构成了许多现代人工智能 (AI)架构(尤其是Transformer)的基石。它在开创性论文“Attention Is All You Need”中首次被提出,这场革命影响了自然语言处理 (NLP)领域。

自注意力机制的工作原理

自注意力机制的核心在于为输入序列中的每个其他元素分配一个相对于当前正在处理的元素的“注意力分数”。这是通过为每个输入元素创建三个向量来实现的:查询 (Q)、键 (K) 和值 (V)。

  1. 查询: 表示当前正在“寻找”上下文的元素。
  2. 键(Key): 表示序列中 Query 可以与之比较以查找相关信息的所有元素。
  3. 值: 表示每个元素的实际内容,这些内容将根据注意力得分进行聚合。

对于给定的查询(Query),该机制计算其与序列中所有键(Key)的相似度。然后,这些相似度得分被转换为权重(通常使用 softmax 函数),这些权重决定了应该在每个元素的值(Value)上投入多少注意力。查询的最终输出是所有值的加权总和,从而创建了该元素的新表示,并用来自整个序列的上下文丰富了该元素。这个过程是 大型语言模型(LLM) 运作方式的关键部分。关于这个 Q-K-V 过程的一个很好的可视化解释可以在 Jay Alammar 的博客 等资源上找到。

自注意力机制 vs. 注意力机制

自注意力机制是一种特殊的注意力机制。其关键区别在于 Query、Key 和 Value 向量的来源。

  • 自注意力机制: 所有三个向量(Q、K、V)都来自相同的输入序列。这使得模型能够分析单个句子或图像中的内部关系。
  • 通用注意力(或交叉注意力): 查询向量可能来自一个序列,而键和值向量来自另一个序列。这在诸如 机器翻译 等序列到序列任务中很常见,其中解码器(生成翻译后的文本)关注编码器对源文本的表示。

人工智能与计算机视觉应用

自注意力机制最初在 NLP 中用于文本摘要和翻译等任务而普及,但它在计算机视觉 (CV)中也被证明非常有效。

  • 自然语言处理: 在“机器人捡起了扳手,因为它很重”这样的句子中,自注意力机制允许模型正确地将“它”与“扳手”而不是“机器人”联系起来。这种理解对于诸如 BERTGPT-4 等模型至关重要。
  • 计算机视觉: Vision Transformer (ViT) 模型将自注意力应用于图像的各个补丁,使其能够学习视觉场景不同部分之间的关系,以用于图像分类等任务。一些目标检测模型还结合了基于注意力的模块来优化特征图并提高准确性。虽然某些模型(如 YOLO12)使用注意力机制,但我们建议大多数用例使用强大而高效的 Ultralytics YOLO11

未来发展方向

研究不断改进自注意力机制,旨在提高计算效率(例如,FlashAttention 等方法和稀疏注意力变体)和更广泛的适用性。随着 AI 模型复杂性的增加,自注意力有望继续成为一项基石技术,推动从 机器人技术 等专业 AI 应用到追求 通用人工智能 (AGI) 等领域的发展。诸如 Ultralytics HUB 之类的工具和平台促进了包含这些先进技术的模型的 训练部署,这些模型通常通过 Hugging Face 等存储库提供,并使用 PyTorchTensorFlow 等框架开发。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板