探索Transformer架构和自注意力机制。了解它们如何为RT-DETR和Ultralytics YOLO26等AI模型提供动力,以实现卓越的精度。
Transformer 是一种深度学习架构,它依赖于一种称为自注意力(self-attention)的机制来处理序列输入数据,例如自然语言或视觉特征。最初由 Google 研究人员在里程碑式的论文 Attention Is All You Need 中提出,Transformer 通过摒弃早期 循环神经网络 (RNNs) 的序列处理限制,彻底改变了 人工智能 (AI) 领域。相反,Transformers 同时分析整个数据序列,从而实现了大规模并行化,并在 GPU 等现代硬件上显著缩短了训练时间。
Transformer 的核心创新是自注意力机制。这使得模型能够衡量输入数据不同部分之间的相对重要性。例如,在一个句子中,模型可以根据周围的上下文学习到“银行”这个词与“金钱”的关系比与“河流”的关系更密切。
这种架构通常由两个主要组件组成:
在计算机视觉 (CV)领域,模型通常采用一种变体,称为Vision Transformer (ViT)。图像被分割成固定大小的块(例如16x16像素),而不是处理文本token。这些块被展平并视为一个序列,使模型能够比标准卷积神经网络 (CNN)更有效地捕捉“全局上下文”——即理解图像远距离部分之间的关系。
区分 Transformer 架构与相关术语很重要:
Transformer 的多功能性使其在各个行业中得到应用:
虽然卷积神经网络(CNN)传统上在目标detect领域占据主导地位,但基于Transformer的模型(如实时detect Transformer(RT-DETR))已成为强大的替代方案。RT-DETR将CNN骨干网络的detect速度与Transformer解码头的精度相结合。
然而,纯Transformer模型可能计算开销较大。对于许多边缘应用,像YOLO26这样高度优化的混合模型——它们集成了高效的注意力机制与快速卷积处理——在速度和精度之间提供了卓越的平衡。您可以通过Ultralytics Platform轻松管理这些模型的训练和部署,该平台简化了从数据集标注到模型导出的整个工作流程。
以下示例演示了如何在
ultralytics 包。此代码加载了一个预训练的RT-DETR模型,并detect图像中的目标。
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()
有关数学基础的进一步阅读,PyTorch关于Transformer层的文档提供了技术深度,而IBM的Transformer指南则提供了高层次的商业视角。

开启您的机器学习未来之旅