了解Transformer 架构如何彻底改变人工智能,助力 NLP、计算机视觉和高级 ML 任务取得突破性进展。
ATransformer 是一种开创性的神经网络架构,它利用自我注意机制来并行处理输入数据。 并行处理输入数据,极大地革新了 自然语言处理(NLP) 和计算机视觉(CV)领域带来了重大变革。该架构由 Google 研究人员在 2017 年的开创性论文 "注意力就是你所需要的一切 "一文中首次提出。 旧架构使用的顺序处理方式。相反,它能同时分析整个数据序列、 从而以前所未有的效率捕捉长距离依赖关系和上下文关系。这种 架构是现代 生成式人工智能和强大的 大型语言模型(LLM)(如 GPT-4)的基础。
Transformer 的显著特点是它依赖于 注意机制,特别是 自我注意。与 递归神经网络 (RNN)、 逐步处理数据(如逐字处理)不同,变换器会一次性接收整个输入。为了理解数据的 数据的顺序,它们采用 位置编码,将其添加到输入嵌入中,以保留关于序列结构的信息。 序列结构的信息。
该架构通常由编码器和解码器堆栈组成:
这种并行结构可实现大规模扩展,使研究人员能够 在庞大的数据集上训练模型。 GPU 在庞大的数据集上训练模型。
虽然该架构最初是为文本设计的,但通过视觉转换器(ViT),它已成功地适用于视觉任务。 视觉Transformer (ViT)。在这种方法中 图像被分割成一系列固定大小的片段(类似于句子中的单词)。然后,模型利用 自我关注来权衡不同 的重要性,从而捕捉全局上下文,而传统的卷积神经网络(Convolutional Neural Networks)则无法捕捉全局上下文。 卷积神经网络 (CNN) 可能会忽略的全局语境。
例如 实时检测Transformer (RT-DETR)就采用了这种架构。 架构来执行高精度的 物体检测。与依赖局部特征的基于 CNN 的模型不同 不同,RT-DETR 可以理解场景中远处物体之间的关系。不过 值得注意的是,变形器擅长全局上下文,而基于 CNN 的模型(如 Ultralytics YOLO11等基于 CNN 的模型通常能更好地兼顾速度 和准确性的平衡。像 YOLO12等社区模型尝试整合重度注意力层 但与 YOLO11 的优化 CNN 架构相比,它们经常出现训练不稳定和推理速度慢的问题。 的优化 CNN 架构相比,经常出现训练不稳定和推理速度慢的问题。
Transformer 架构的多功能性使其被各行各业广泛采用。
您可以直接使用 ultralytics 软件包。
下面的示例演示了如何加载RT-DETR 模型进行目标检测。
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
重要的是要将 Transformers 与其他常见的 深度学习(DL)架构:
研究工作不断提高变压器的效率。像 FlashAttention 等创新技术正在降低计算成本、 使上下文窗口更长。此外 多模态人工智能系统正在将变形金刚与 此外,多模态人工智能系统正在将变形金刚与其他架构合并,以同时处理文本、图像和音频。随着这些技术的成熟,即将推出的 Ultralytics 平台将提供一个统一的环境来训练、部署和监控这些复杂的模型、 和监控这些复杂模型的统一环境。 计算机视觉任务。

