敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

Transformer

探索 Transformer 架构如何革新人工智能,为自然语言处理、计算机视觉和高级机器学习任务带来突破。

Transformer 是一种革命性的神经网络架构,已成为现代人工智能 (AI)的基石,尤其是在自然语言处理 (NLP)以及最近的计算机视觉 (CV)中。由 Google 研究人员在 2017 年的论文“Attention Is All You Need”中提出,其关键创新是自注意力机制,该机制允许模型权衡输入序列中不同单词或部分的重要性。这使其能够比以前的架构更有效地捕获长距离依赖关系和上下文关系。该设计还允许大规模并行化,从而可以在海量数据集上训练更大的模型,从而导致了大型语言模型 (LLM)的兴起。

Transformer 的工作原理

循环神经网络(RNN)等序列模型不同,Transformer可以一次处理整个数据序列。其核心思想是并行处理所有元素,从而显著加快在GPU等现代硬件上的训练速度。

为了在没有循环的情况下理解序列顺序,Transformer使用一种称为位置编码的技术,该技术将关于每个元素(例如,句子中的一个词)位置的信息添加到其嵌入中。然后,自注意力层处理这些嵌入,允许每个元素“查看”序列中的每个其他元素,并确定哪些元素对于理解其含义最相关。这种全局上下文感知是复杂任务的一个主要优势。像PyTorchTensorFlow这样的框架为构建基于Transformer的模型提供了广泛的支持。

Transformer 的应用

Transformer的影响跨越了众多领域,推动了语言和视觉任务的进步。

  1. 语言翻译和生成: 诸如Google翻译之类的服务使用基于Transformer的模型进行高质量的机器翻译。该模型可以考虑整个源语句子,以产生更流畅和准确的翻译。类似地,像GPT-4这样的模型通过理解上下文来创建连贯的段落、撰写文章或支持高级聊天机器人,从而擅长文本生成
  2. 计算机视觉Vision Transformer (ViT) 调整了基于图像任务的架构。它将图像视为一系列补丁,并使用自注意力来建模它们之间的关系。这种方法用于 RT-DETR 等模型中,用于目标检测,其中理解场景的全局上下文可以帮助更准确地识别对象,尤其是在杂乱的环境中。您可以查看 RT-DETR 和 YOLOv8 的比较,以了解它们的架构差异。

Transformer 与其他架构的对比

区分Transformers和其他常见的神经网络架构会很有帮助:

  • Transformers vs. RNNs: RNN 顺序处理数据,这使得它们本质上速度较慢,并且容易受到梯度消失问题的影响,导致它们忘记长序列中较早的信息。Transformer 通过并行处理和自注意力克服了这个问题,从而更有效地捕获了长距离依赖关系。
  • Transformers vs. CNNs: 卷积神经网络 (CNN) 对于视觉任务非常有效,它使用卷积滤波器来识别像素等网格状数据中的局部模式。它们是 Ultralytics YOLO 系列等模型的基础。相比之下,Transformer 捕获全局关系,但通常需要更多的数据和计算资源。混合模型将 CNN 主干网络与 Transformer 层相结合,旨在兼顾两者的优点。

高效的Transformer变体

原始 Transformer 的完整自注意力机制的计算成本随着序列长度的增加而呈二次方增长,这使得它对于非常长的序列来说具有挑战性。这促使了更高效变体的开发。

  • Longformer: 使用滑动窗口注意力机制,结合特定令牌的全局注意力,以降低计算复杂度。
  • Reformer: 采用局部敏感哈希等技术来近似完全注意力,从而使其更节省内存。
  • Transformer-XL: 引入了一种递归机制,允许模型学习超出固定长度的依赖关系,这对于自回归语言建模特别有用。

这些进步不断扩展了 Transformer 在新问题中的适用性。诸如 Hugging FaceUltralytics HUB 之类的工具和平台使开发人员可以更轻松地访问和部署这些强大的模型。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板