深圳Yolo 视觉
深圳
立即加入
词汇表

Transformer

探索Transformer架构和自注意力机制。了解它们如何为RT-DETR和Ultralytics YOLO26等AI模型提供动力,以实现卓越的精度。

Transformer 是一种深度学习架构,它依赖于一种称为自注意力(self-attention)的机制来处理序列输入数据,例如自然语言或视觉特征。最初由 Google 研究人员在里程碑式的论文 Attention Is All You Need 中提出,Transformer 通过摒弃早期 循环神经网络 (RNNs) 的序列处理限制,彻底改变了 人工智能 (AI) 领域。相反,Transformers 同时分析整个数据序列,从而实现了大规模并行化,并在 GPU 等现代硬件上显著缩短了训练时间。

Transformer 的工作原理

Transformer 的核心创新是自注意力机制。这使得模型能够衡量输入数据不同部分之间的相对重要性。例如,在一个句子中,模型可以根据周围的上下文学习到“银行”这个词与“金钱”的关系比与“河流”的关系更密切。

这种架构通常由两个主要组件组成:

  • 编码器:将输入数据处理成丰富的数值表示或嵌入
  • 解码器: 使用编码器的输出生成最终结果,例如翻译后的句子或预测的边界框。

计算机视觉 (CV)领域,模型通常采用一种变体,称为Vision Transformer (ViT)。图像被分割成固定大小的块(例如16x16像素),而不是处理文本token。这些块被展平并视为一个序列,使模型能够比标准卷积神经网络 (CNN)更有效地捕捉“全局上下文”——即理解图像远距离部分之间的关系。

Transformer 与相关概念

区分 Transformer 架构与相关术语很重要:

  • 注意力机制: 这是关注数据特定部分的通用概念。Transformer是一种完全围绕注意力层构建的特定架构,而其他模型可能只将注意力机制作为小型附加组件使用。
  • 大语言模型 (LLM): “GPT”等术语指的是在大量文本上训练的特定模型。几乎所有现代LLM都使用Transformer架构作为其底层引擎。

实际应用

Transformer 的多功能性使其在各个行业中得到应用:

  1. 医学影像:医疗AI中,Transformer被用于医学图像分析等复杂任务。它们理解全局空间关系的能力有助于检测高分辨率MRI或CT扫描中局部特征聚焦的CNN可能遗漏的细微异常。
  2. 自动系统:对于自动驾驶车辆而言,理解行人和其他车辆的轨迹至关重要。Transformer通过track跨时间帧的物体,预测未来运动以确保安全导航,从而擅长视频理解

基于Transformer的目标检测

虽然卷积神经网络(CNN)传统上在目标detect领域占据主导地位,但基于Transformer的模型(如实时detect Transformer(RT-DETR))已成为强大的替代方案。RT-DETR将CNN骨干网络的detect速度与Transformer解码头的精度相结合。

然而,纯Transformer模型可能计算开销较大。对于许多边缘应用,像YOLO26这样高度优化的混合模型——它们集成了高效的注意力机制与快速卷积处理——在速度和精度之间提供了卓越的平衡。您可以通过Ultralytics Platform轻松管理这些模型的训练和部署,该平台简化了从数据集标注到模型导出的整个工作流程。

Python示例:使用RT-DETR

以下示例演示了如何在 ultralytics 包。此代码加载了一个预训练的RT-DETR模型,并detect图像中的目标。

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

有关数学基础的进一步阅读,PyTorch关于Transformer层的文档提供了技术深度,而IBM的Transformer指南则提供了高层次的商业视角。

让我们一起共建AI的未来!

开启您的机器学习未来之旅