词汇表

Transformer

了解Transformer 架构如何彻底改变人工智能，助力 NLP、计算机视觉和高级 ML 任务取得突破性进展。

ATransformer 是一种开创性的神经网络架构，它利用自我注意机制来并行处理输入数据。并行处理输入数据，极大地革新了自然语言处理（NLP）和计算机视觉（CV）领域带来了重大变革。该架构由 Google 研究人员在 2017 年的开创性论文 "注意力就是你所需要的一切 "一文中首次提出。旧架构使用的顺序处理方式。相反，它能同时分析整个数据序列、从而以前所未有的效率捕捉长距离依赖关系和上下文关系。这种架构是现代生成式人工智能和强大的大型语言模型（LLM）（如 GPT-4）的基础。

核心架构和机制

Transformer 的显著特点是它依赖于注意机制，特别是自我注意。与递归神经网络 (RNN)、逐步处理数据（如逐字处理）不同，变换器会一次性接收整个输入。为了理解数据的数据的顺序，它们采用位置编码，将其添加到输入嵌入中，以保留关于序列结构的信息。序列结构的信息。

该架构通常由编码器和解码器堆栈组成：

编码器：对输入数据进行处理，以形成对上下文的理解。
解码器：利用编码器的洞察力生成输出，如翻译文本或预测图像像素。图像像素。

这种并行结构可实现大规模扩展，使研究人员能够在庞大的数据集上训练模型。 GPU 在庞大的数据集上训练模型。

计算机视觉中的变形金刚

虽然该架构最初是为文本设计的，但通过视觉转换器（ViT），它已成功地适用于视觉任务。视觉Transformer (ViT)。在这种方法中图像被分割成一系列固定大小的片段（类似于句子中的单词）。然后，模型利用自我关注来权衡不同的重要性，从而捕捉全局上下文，而传统的卷积神经网络（Convolutional Neural Networks）则无法捕捉全局上下文。卷积神经网络 (CNN) 可能会忽略的全局语境。

例如实时检测Transformer （RT-DETR）就采用了这种架构。架构来执行高精度的物体检测。与依赖局部特征的基于 CNN 的模型不同不同，RT-DETR 可以理解场景中远处物体之间的关系。不过值得注意的是，变形器擅长全局上下文，而基于 CNN 的模型（如 Ultralytics YOLO11等基于 CNN 的模型通常能更好地兼顾速度和准确性的平衡。像 YOLO12等社区模型尝试整合重度注意力层但与 YOLO11 的优化 CNN 架构相比，它们经常出现训练不稳定和推理速度慢的问题。的优化 CNN 架构相比，经常出现训练不稳定和推理速度慢的问题。

实际应用

Transformer 架构的多功能性使其被各行各业广泛采用。

医学图像分析：在医疗保健领域，变形金刚医疗图像分析高分辨率扫描（如核磁共振成像或 CT）的特征进行关联，以detect 肿瘤等异常情况。它们能够理解全局背景的能力，确保细微的模式不会被忽视。
自主导航：自动驾驶汽车使用Transformer模型来处理来自多个摄像头的视频馈送。多个摄像头的视频馈送。这有助于视频理解和轨迹预测通过跟踪动态物体（行人、其他车辆）如何随时间发生相互作用。
高级聊天机器人：虚拟助理和客户支持代理依靠变形金刚在长时间对话中保持语境在长时间对话中保持上下文，与老式聊天机器人相比，能显著改善用户体验。聊天机器人相比，大大改善了用户体验。

将变压器与Ultralytics一起使用

您可以直接使用 ultralytics 软件包。下面的示例演示了如何加载RT-DETR 模型进行目标检测。

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

变形金刚与其他架构

重要的是要将 Transformers 与其他常见的深度学习（DL）架构：

变形金刚与 RNN/LSTM：RNNs 存在梯度消失问题梯度消失问题，使其遗忘长序列中的早期信息。变换器通过自我关注解决了这一问题，能保持对整个序列历史的访问。序列的历史记录。
变形器与 CNN：CNN 具有平移不变性，并善于利用骨干网检测局部模式（边缘和纹理）。 (边缘、纹理），因此在图像任务中效率很高。高效地完成图像任务。变换器可以学习全局关系，但通常需要更多的数据和计算能力才能收敛。现代方法通常创建混合模型或使用高效的 CNN，如 YOLO11等高效 CNN，它们在受限环境中的表现优于纯变换器。环境中优于纯变换器。

未来展望

研究工作不断提高变压器的效率。像 FlashAttention 等创新技术正在降低计算成本、使上下文窗口更长。此外多模态人工智能系统正在将变形金刚与此外，多模态人工智能系统正在将变形金刚与其他架构合并，以同时处理文本、图像和音频。随着这些技术的成熟，即将推出的 Ultralytics 平台将提供一个统一的环境来训练、部署和监控这些复杂的模型、和监控这些复杂模型的统一环境。计算机视觉任务。

Transformer

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

核心架构和机制

计算机视觉中的变形金刚

实际应用

将变压器与Ultralytics一起使用

变形金刚与其他架构

未来展望

阅读更多此类别的内容

未来物体检测趋势：需要关注的 7 个关键问题

利用Ultralytics YOLO 模型增强车辆再识别能力

利用Ultralytics YOLO 模型改进碰撞预测

加入Ultralytics 社区