了解注意力机制如何通过增强 NLP 和计算机视觉任务(如翻译、目标检测等)来革新 AI!
注意力机制是神经网络中使用的一种技术,它模仿人类的认知注意力。它允许模型在生成输出时动态地关注输入数据中最相关的部分。模型不是平等地对待输入的所有部分,而是学习为每个部分分配不同的“注意力”分数,从而放大重要信息的影响并减少不相关数据的影响。这种能力有助于提高模型在各个领域的性能,从自然语言处理 (NLP)到计算机视觉 (CV)。
从本质上讲,注意力机制计算输入的注意力权重集。这些权重决定了模型应该将多少注意力放在输入序列或图像的每个元素上。例如,在翻译长句子时,模型需要关注特定的源词,以生成翻译中正确的下一个词。在注意力机制出现之前,像传统的循环神经网络 (RNN)这样的模型在处理长序列时会遇到困难,经常“忘记”输入的早期部分,这个问题被称为梯度消失问题。注意力通过提供与输入所有部分的直接连接来克服这个问题,允许模型根据需要回顾序列的任何部分,而不管其长度如何。这种处理长程依赖关系的能力是一项重大突破,在论文“Attention Is All You Need”中有详细描述。
虽然通用注意力机制和 自注意力机制 经常互换使用,但区分它们非常重要。
注意力机制是许多现代 AI 应用程序 不可或缺的一部分:
诸如 Ultralytics HUB 这样的平台允许用户训练、验证和部署高级模型,包括那些结合了注意力机制的模型。这些模型通常利用在 Hugging Face 等平台上提供的预训练模型权重,并使用 PyTorch 和 TensorFlow 等强大的框架构建。注意力的发展推动了机器学习领域可能性的边界,使其成为 DeepMind 等机构现代人工智能研究和开发的基石。