探索注意力机制如何通过模仿人类注意力来彻底改变AI。了解查询(Query)、键(Key)和值(Value)组件如何在Ultralytics YOLO26中提高准确性。
注意力机制是人工智能 (AI)中的一项基础技术,它模仿人类认知能力,专注于特定细节而忽略不相关信息。在深度学习 (DL)中,这种机制允许神经网络 (NN)动态地为输入数据的不同部分分配不同程度的重要性,即“权重”。模型不再对整个图像或句子进行同等处理,而是学习关注最重要的特征——例如句子中的特定词语以理解上下文,或复杂视觉场景中的独特物体。这一突破是Transformer架构背后的驱动力,该架构彻底改变了从自然语言处理 (NLP)到高级计算机视觉 (CV)等领域。
注意力机制最初旨在解决 循环神经网络 (RNN) 中的内存限制,它通过在数据序列中相距较远的部分之间建立直接连接来解决 梯度消失 问题。这个过程通常用一个涉及三个组件的检索类比来描述:查询 (Queries)、键 (Keys) 和值 (Values)。
通过将查询(Query)与各种键(Keys)进行比较,模型计算出一个注意力分数。这个分数决定了从值(Value)中检索多少内容并用于形成输出。这使得模型能够有效地处理长距离依赖,理解数据点之间的关系,无论它们彼此相距多远。
注意力机制促成了现代技术中一些最显著的进步。
区分注意力机制与卷积神经网络 (CNNs)至关重要。卷积神经网络(CNN)使用固定窗口(核)局部处理数据以detect边缘和纹理,而注意力机制则全局处理数据,将输入的每个部分与所有其他部分关联起来。
尽管像Ultralytics YOLO26这样的最先进模型使用先进的CNN结构针对实时推理进行了优化,但像RT-DETR(实时检测Transformer)这样的混合架构明确使用注意力机制以实现高精度。这两种类型的模型都可以使用Ultralytics Platform轻松训练和部署。
以下Python示例演示了如何使用执行推理。 RT-DETR,一种模型架构,其根本依赖于注意力机制,用于
物体检测.
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model which uses attention mechanisms
# This model captures global context effectively compared to pure CNNs
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of detections found via transformer attention
print(f"Detected {len(results[0].boxes)} objects using attention-based detection.")

开启您的机器学习未来之旅