深圳Yolo 视觉
深圳
立即加入
词汇表

Transformer

探索Transformer 与自注意力机制,了解它们如何为RT-DETR Ultralytics 等AI模型提供强大支持,实现卓越的准确性。

Transformer 深度学习架构,它依赖于一种称为自注意力(self-attention)的机制来处理序列输入数据,例如自然语言或视觉特征。该模型最初由Google 在具有里程碑意义的论文 《注意力即一切》,Transformer 突破早期循环神经网络(RNNs)的序列处理局限Transformer 人工智能(AI)领域。 Transformer 同时分析完整数据序列,实现了大规模并行化处理,在GPU等现代硬件上显著缩短了训练时间。

Transformer 的工作原理

Transformer 的核心创新Transformer 自注意力机制。该机制使模型能够 对输入数据中不同部分的相对重要性进行权衡。例如在句子中, 模型可通过上下文学习到"银行"一词与"金钱"的关联性 远高于与"河流"的关联性。

该架构通常由两个主要组件构成:

  • 编码器:将输入数据处理为丰富的数值表示或嵌入
  • 解码器:利用编码器的输出生成最终结果,例如翻译后的句子或预测的边界框。

计算机视觉(CV)领域,模型通常采用一种名为视觉Transformer ViT)的变体。 该模型不处理文本标记,而是将图像分割为固定尺寸的补丁(例如16x16像素)。这些补丁被展平处理为序列,使模型能够比标准卷积神经网络(CNN)更有效地捕捉"全局上下文"——即理解图像中相距较远部分之间的关联关系。

变形金刚与相关概念

Transformer 相关术语至关重要:

  • 注意力机制这是聚焦于数据特定部分的通用概念。Transformer 完全围绕注意力层构建的特定架构,而其他模型可能仅将注意力作为小型附加组件使用。
  • 大型语言模型(LLM) 诸如"GPT"之类的术语指代在海量文本数据上训练的特定模型。几乎所有现代LLM都采用 Transformer 其底层引擎。

实际应用

变形金刚的多功能性使其被广泛应用于各个行业:

  1. 医学影像: 医疗健康领域的人工智能应用中,变换器被用于 医学影像分析等复杂任务。 其理解全局空间关系的能力有助于检测高分辨率MRI 或CT扫描中的细微异常,而专注于局部特征的卷积神经网络可能无法发现这些异常。
  2. 自主系统: 对于自动驾驶车辆而言,理解行人及其他车辆的运动轨迹至关重要。Transformers模型通过跨帧追踪物体并预测未来运动轨迹,在视频理解领域表现卓越,从而确保安全导航。

基于Transformers的物体检测

虽然卷积神经网络(CNN)在物体检测领域占据主导地位,但Transformer模型 Transformer 实时Transformer RT-DETR Transformer 已崛起为强大的替代方案。RT-DETR 骨干网络的速度Transformer 精准特性。

然而,纯Transformer 可能存在计算量过大的问题。对于许多边缘计算应用而言,高度优化的混合模型(如YOLO26)——这类模型将高效的注意力机制与快速卷积处理相结合——能够在速度与精度之间实现更优的平衡。您Ultralytics 轻松管理这些模型的训练与部署,该平台将数据集标注到模型导出的工作流程进行了全面优化。

Python :使用RT-DETR

以下示例演示了如何在Transformer模型中执行推理: ultralytics 该代码加载预训练RT-DETR ,并检测图像中的物体。

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

若需深入了解数学基础, PyTorch Transformer PyTorch 提供了技术深度解析, 而IBM的Transformer指南则从 高层次商业视角进行阐述。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入