Transformer
探索 Transformer 架构和自注意力机制。学习它们如何驱动 RT-DETR 和 Ultralytics YOLO26 等 AI 模型实现卓越精度。
A Transformer is a deep learning architecture that relies on a mechanism called self-attention to process sequential input data, such as natural language or visual features. Originally introduced by Google researchers in the landmark paper Attention Is All You Need, the Transformer revolutionized the field of artificial intelligence (AI) by discarding the sequential processing limitations of earlier Recurrent Neural Networks (RNNs). Instead, Transformers analyze entire sequences of data simultaneously, allowing for massive parallelization and significantly faster training times on modern hardware like GPUs.
Link to this sectionTransformer 的工作原理#
Transformer 的核心创新在于 自注意力 (self-attention) 机制。这使得模型能够根据输入数据各部分之间的相互关系来权衡它们的重要性。例如,在一个句子中,模型可以基于周围的上下文了解到“bank”这个词与“money”(金钱)的关系比与“river”(河流)的关系更紧密。
该架构通常由两个主要组件组成:
- 编码器 (Encoder): 将输入数据处理为丰富的数值表示或 嵌入 (embedding)。
- 解码器 (Decoder): 使用编码器的输出生成最终结果,例如翻译后的句子或预测的边界框 (bounding box)。
在 计算机视觉 (CV) 领域,模型通常采用一种称为 视觉 Transformer (ViT) 的变体。它不是处理文本标记,而是将图像分割成固定大小的块(例如 16x16 像素)。这些块被展平并视为一个序列,从而使模型能够比标准的 卷积神经网络 (CNN) 更有效地捕获“全局上下文”——即理解图像中相距较远部分之间的关系。
Link to this sectionTransformer 与相关概念的对比#
区分 Transformer 架构与相关术语非常重要:
- 注意力机制 (Attention Mechanism): 这是一个关注数据特定部分的通用概念。Transformer 是一种完全围绕注意力层构建的特定 架构,而其他模型可能仅将注意力作为一种小的附加组件。
- 大语言模型 (LLM): 像“GPT”这样的术语是指在海量文本上训练的特定模型。几乎所有现代 LLM 都使用 Transformer 架构作为其底层引擎。
Link to this section实际应用#
Transformer 的多功能性使其在各个行业中得到了应用:
-
医学影像: 在 医疗保健领域的 AI 中,Transformer 被用于 医学图像分析 等复杂任务。它们理解全局空间关系的能力有助于检测高分辨率 MRI 或 CT 扫描中那些侧重局部特征的 CNN 可能遗漏的细微异常。
-
自主系统: 对于 自动驾驶汽车 而言,理解行人和其他车辆的轨迹至关重要。Transformer 通过跨时间帧跟踪对象并预测未来的移动,在 视频理解 方面表现出色,从而确保安全导航。
Link to this section使用 Transformer 进行目标检测#
虽然 CNN 传统上在目标检测领域占据主导地位,但像 实时检测 Transformer (RT-DETR) 这样的基于 Transformer 的模型已成为强大的替代方案。RT-DETR 将 CNN 主干网络的速度与 Transformer 解码头的精度相结合。
然而,纯 Transformer 模型可能会有较高的计算开销。对于许多边缘应用,高度优化的混合模型(如 YOLO26)——它们将高效的注意力机制与快速的卷积处理相结合——提供了速度与精度的卓越平衡。你可以通过 Ultralytics Platform 轻松管理这些模型的训练和部署,该平台简化了从数据集标注到模型导出的工作流程。
Link to this sectionPython 示例:使用 RT-DETR#
以下示例演示了如何在 ultralytics 包中使用基于 Transformer 的模型执行推理。此代码会加载一个预训练的 RT-DETR 模型并检测图像中的对象。
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()如需进一步阅读数学基础,PyTorch 关于 Transformer 层的文档 提供了技术深度,而 IBM 的 Transformer 指南 则提供了高层次的商业视角。






