深圳Yolo 视觉
深圳
立即加入
词汇表

Transformer

了解Transformer 架构如何彻底改变人工智能,助力 NLP、计算机视觉和高级 ML 任务取得突破性进展。

ATransformer 是一种开创性的神经网络架构,它利用自我注意机制来并行处理输入数据。 并行处理输入数据,极大地革新了 自然语言处理(NLP)计算机视觉(CV)领域带来了重大变革。该架构由 Google 研究人员在 2017 年的开创性论文 "注意力就是你所需要的一切 "一文中首次提出。 旧架构使用的顺序处理方式。相反,它能同时分析整个数据序列、 从而以前所未有的效率捕捉长距离依赖关系和上下文关系。这种 架构是现代 生成式人工智能和强大的 大型语言模型(LLM)(如 GPT-4)的基础。

核心架构和机制

Transformer 的显著特点是它依赖于 注意机制,特别是 自我注意。与 递归神经网络 (RNN)、 逐步处理数据(如逐字处理)不同,变换器会一次性接收整个输入。为了理解数据的 数据的顺序,它们采用 位置编码,将其添加到输入嵌入中,以保留关于序列结构的信息。 序列结构的信息。

该架构通常由编码器和解码器堆栈组成:

  • 编码器:对输入数据进行处理,以形成对上下文的理解。
  • 解码器:利用编码器的洞察力生成输出,如翻译文本或预测图像像素。 图像像素。

这种并行结构可实现大规模扩展,使研究人员能够 在庞大的数据集上训练模型。 GPU 在庞大的数据集上训练模型。

计算机视觉中的变形金刚

虽然该架构最初是为文本设计的,但通过视觉转换器(ViT),它已成功地适用于视觉任务。 视觉Transformer (ViT)。在这种方法中 图像被分割成一系列固定大小的片段(类似于句子中的单词)。然后,模型利用 自我关注来权衡不同 的重要性,从而捕捉全局上下文,而传统的卷积神经网络(Convolutional Neural Networks)则无法捕捉全局上下文。 卷积神经网络 (CNN) 可能会忽略的全局语境。

例如 实时检测Transformer (RT-DETR)就采用了这种架构。 架构来执行高精度的 物体检测。与依赖局部特征的基于 CNN 的模型不同 不同,RT-DETR 可以理解场景中远处物体之间的关系。不过 值得注意的是,变形器擅长全局上下文,而基于 CNN 的模型(如 Ultralytics YOLO11等基于 CNN 的模型通常能更好地兼顾速度 和准确性的平衡。像 YOLO12等社区模型尝试整合重度注意力层 但与 YOLO11 的优化 CNN 架构相比,它们经常出现训练不稳定和推理速度慢的问题。 的优化 CNN 架构相比,经常出现训练不稳定和推理速度慢的问题。

实际应用

Transformer 架构的多功能性使其被各行各业广泛采用。

  • 医学图像分析:在医疗保健领域,变形金刚 医疗图像分析 高分辨率扫描(如核磁共振成像或 CT)的特征进行关联,以detect 肿瘤等异常情况。它们能够理解 全局背景的能力,确保细微的模式不会被忽视。
  • 自主导航:自动驾驶汽车使用Transformer模型来处理来自多个摄像头的视频馈送。 多个摄像头的视频馈送。这有助于 视频理解和轨迹预测 通过跟踪动态物体(行人、其他车辆)如何随时间发生相互作用。
  • 高级聊天机器人:虚拟助理和客户支持代理依靠变形金刚在长时间对话中保持语境 在长时间对话中保持上下文,与老式聊天机器人相比,能显著改善用户体验。 聊天机器人相比,大大改善了用户体验。

将变压器与Ultralytics一起使用

您可以直接使用 ultralytics 软件包。 下面的示例演示了如何加载RT-DETR 模型进行目标检测。

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

变形金刚与其他架构

重要的是要将 Transformers 与其他常见的 深度学习(DL)架构:

  • 变形金刚与 RNN/LSTM:RNNs 存在梯度消失问题 梯度消失问题,使其遗忘 长序列中的早期信息。变换器通过自我关注解决了这一问题,能保持对整个序列历史的访问。 序列的历史记录。
  • 变形器与 CNN:CNN 具有平移不变性,并善于利用骨干网检测局部模式(边缘和纹理)。 (边缘、纹理),因此在图像任务中效率很高。 高效地完成图像任务。变换器可以学习全局关系,但通常需要更多的数据和计算能力 才能收敛。现代方法通常创建混合模型或使用高效的 CNN,如 YOLO11等高效 CNN,它们在受限环境中的表现优于纯变换器。 环境中优于纯变换器。

未来展望

研究工作不断提高变压器的效率。像 FlashAttention 等创新技术正在降低计算成本、 使上下文窗口更长。此外 多模态人工智能系统正在将变形金刚与 此外,多模态人工智能系统正在将变形金刚与其他架构合并,以同时处理文本、图像和音频。随着这些技术的成熟,即将推出的 Ultralytics 平台将提供一个统一的环境来训练、部署和监控这些复杂的模型、 和监控这些复杂模型的统一环境。 计算机视觉任务

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入