探索人工智能中自我关注的力量,用上下文感知的精确性彻底改变 NLP、计算机视觉和语音识别。
自我关注是一种能让模型权衡单一输入序列中不同元素重要性的机制。它允许模型在处理特定元素时选择性地关注最相关的部分,而不是平等对待输入的每一部分。这种能力对于理解数据中的上下文、长距离依赖和关系至关重要,是许多现代人工智能(AI)架构的基石,尤其是Transformer。它在开创性论文《注意力就是你所需要的一切》中得到了著名的介绍,该论文彻底改变了自然语言处理(NLP)领域。
自我关注的核心是为输入序列中相对于当前正在处理的元素的每个其他元素分配一个 "关注分值"。这是通过为每个输入元素创建三个向量来实现的:查询 (Q)、键 (K) 和值 (V)。
对于给定的查询,该机制会计算其与序列中所有键的相似度。然后,这些相似度分数会被转换成权重(通常使用软最大值函数),权重决定了每个元素的 "值 "应受到多少关注。查询的最终输出是所有 "值 "的加权总和,通过整个序列的上下文为该元素创建一个新的表示。这一过程是大型语言模型(LLM)运行的关键部分。在Jay Alammar 的博客等资源中,可以找到对 Q-K-V 过程的出色可视化解释。
自我注意是一种特殊的注意机制。关键区别在于查询、关键和值向量的来源。
自我注意最初在 NLP 中的文本摘要和翻译等任务中得到普及,但事实证明,它在计算机视觉(CV)中也非常有效。
研究不断完善自我注意机制,旨在提高计算效率(例如FlashAttention和稀疏注意变体等方法)和扩大适用性。随着人工智能模型日益复杂,自我注意有望继续成为一项基石技术,推动从机器人等专业人工智能应用到人工通用智能(AGI)等领域的进步。Ultralytics HUB等工具和平台有助于训练和部署包含这些先进技术的模型,这些模型通常可通过Hugging Face等资源库获得,并采用PyTorch和TensorFlow 等框架开发。