遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Transformer

探索 Transformer 架构和自注意力机制。学习它们如何驱动 RT-DETR 和 Ultralytics YOLO26 等 AI 模型实现卓越精度。

A Transformer is a deep learning architecture that relies on a mechanism called self-attention to process sequential input data, such as natural language or visual features. Originally introduced by Google researchers in the landmark paper Attention Is All You Need, the Transformer revolutionized the field of artificial intelligence (AI) by discarding the sequential processing limitations of earlier Recurrent Neural Networks (RNNs). Instead, Transformers analyze entire sequences of data simultaneously, allowing for massive parallelization and significantly faster training times on modern hardware like GPUs.

Link to this sectionTransformer 的工作原理#

Transformer 的核心创新在于 自注意力 (self-attention) 机制。这使得模型能够根据输入数据各部分之间的相互关系来权衡它们的重要性。例如,在一个句子中,模型可以基于周围的上下文了解到“bank”这个词与“money”(金钱)的关系比与“river”(河流)的关系更紧密。

该架构通常由两个主要组件组成:

  • 编码器 (Encoder): 将输入数据处理为丰富的数值表示或 嵌入 (embedding)
  • 解码器 (Decoder): 使用编码器的输出生成最终结果,例如翻译后的句子或预测的边界框 (bounding box)。

计算机视觉 (CV) 领域,模型通常采用一种称为 视觉 Transformer (ViT) 的变体。它不是处理文本标记,而是将图像分割成固定大小的块(例如 16x16 像素)。这些块被展平并视为一个序列,从而使模型能够比标准的 卷积神经网络 (CNN) 更有效地捕获“全局上下文”——即理解图像中相距较远部分之间的关系。

Link to this sectionTransformer 与相关概念的对比#

区分 Transformer 架构与相关术语非常重要:

  • 注意力机制 (Attention Mechanism) 这是一个关注数据特定部分的通用概念。Transformer 是一种完全围绕注意力层构建的特定 架构,而其他模型可能仅将注意力作为一种小的附加组件。
  • 大语言模型 (LLM) 像“GPT”这样的术语是指在海量文本上训练的特定模型。几乎所有现代 LLM 都使用 Transformer 架构作为其底层引擎。

Link to this section实际应用#

Transformer 的多功能性使其在各个行业中得到了应用:

  1. 医学影像:医疗保健领域的 AI 中,Transformer 被用于 医学图像分析 等复杂任务。它们理解全局空间关系的能力有助于检测高分辨率 MRI 或 CT 扫描中那些侧重局部特征的 CNN 可能遗漏的细微异常。

  2. 自主系统: 对于 自动驾驶汽车 而言,理解行人和其他车辆的轨迹至关重要。Transformer 通过跨时间帧跟踪对象并预测未来的移动,在 视频理解 方面表现出色,从而确保安全导航。

Link to this section使用 Transformer 进行目标检测#

虽然 CNN 传统上在目标检测领域占据主导地位,但像 实时检测 Transformer (RT-DETR) 这样的基于 Transformer 的模型已成为强大的替代方案。RT-DETR 将 CNN 主干网络的速度与 Transformer 解码头的精度相结合。

然而,纯 Transformer 模型可能会有较高的计算开销。对于许多边缘应用,高度优化的混合模型(如 YOLO26)——它们将高效的注意力机制与快速的卷积处理相结合——提供了速度与精度的卓越平衡。你可以通过 Ultralytics Platform 轻松管理这些模型的训练和部署,该平台简化了从数据集标注到模型导出的工作流程。

Link to this sectionPython 示例:使用 RT-DETR#

以下示例演示了如何在 ultralytics 包中使用基于 Transformer 的模型执行推理。此代码会加载一个预训练的 RT-DETR 模型并检测图像中的对象。

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

如需进一步阅读数学基础,PyTorch 关于 Transformer 层的文档 提供了技术深度,而 IBM 的 Transformer 指南 则提供了高层次的商业视角。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅