了解注意力机制如何通过增强 NLP 和计算机视觉任务(如翻译、目标检测等)来革新 AI!
注意力机制是人工智能(AI)领域的一项基础技术。 人工智能(AI) ,它模拟了人类认知能力——专注于特定细节的同时忽略无关信息。在 深度学习(DL) 深度学习(DL),该机制使 神经网络(NN) 动态为输入数据的不同部分分配不同重要性等级(即"权重")。 模型不再以同等重视程度处理整张图像或整句话,而是学会关注最关键特征——例如通过句中特定词汇理解语境,或在复杂视觉场景中识别独立物体。这项突破性技术正是驱动 Transformer 架构的驱动力,该架构 彻底革新了从 自然语言处理(NLP) 到先进 计算机视觉(CV)。
最初设计用于解决 循环神经网络(RNNs),注意力机制解决了 梯度消失 问题,通过 在数据序列的远端部分建立直接连接。该过程常通过检索类比来描述, 涉及三个组件:查询、键和值。
通过将查询与各种键进行比较,模型计算出注意力分数。该分数决定了 从值中检索并用于形成输出的比例。这使得模型能够处理 长程依赖关系 ,理解数据点之间的关系,无论它们彼此相距多远。
注意力机制推动了现代科技领域中一些最引人注目的进步。
区分注意与卷积神经网络(CNNs)至关重要。 卷积神经网络(CNNs)。卷积神经网络通过固定窗口(核函数)进行局部数据处理以detect 和纹理,而注意力机制则进行全局数据处理,将输入的每个部分与其他所有部分建立关联。
尽管像 Ultralytics 这类模型虽针对 实时推理 ,而混合架构如 RT-DETR (实时检测Transformer) 明确采用注意力机制实现高精度。这两类模型均可通过 Ultralytics 进行训练和部署。
以下Python 演示了如何使用 RT-DETR一种模型架构
其本质上依赖于注意力机制来实现
物体检测.
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model which uses attention mechanisms
# This model captures global context effectively compared to pure CNNs
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of detections found via transformer attention
print(f"Detected {len(results[0].boxes)} objects using attention-based detection.")