敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

Reformer

探索 Reformer 模型:一种开创性的 Transformer 架构,针对具有 LSH 注意力和可逆层的长序列进行了优化。

Reformer 是 Google AI 的研究人员开发的一种高效的 Transformer 模型。它旨在处理极长的数据序列,这对于标准 Transformer 架构来说是一个巨大的挑战,因为它们需要大量的内存使用和计算。通过引入新的技术,Reformer 可以在单个加速器上处理多达一百万个单词的上下文长度,从而可以处理整本书或高分辨率图像。这种效率对于推进 大型语言模型 (LLM)人工智能 (AI) 中的其他基于序列的任务的能力至关重要。

Reformer 如何提高效率

Reformer 的效率来自两项主要创新,这些创新解决了标准 注意力机制 和内存分配中的瓶颈:

  • 局部敏感哈希 (LSH) 注意力机制: 传统的 Transformer 会计算序列中每对单词的注意力分数,随着序列长度的增加,计算成本会变得非常高。Reformer 使用 局部敏感哈希 (LSH) 来近似代替这种完全注意力机制。该技术将相似的单词分组到桶中,并且仅在这些较小的组内计算注意力,从而大大降低了计算负载。它的原理是,含义(或向量空间)相近的单词很可能被哈希到同一个桶中。
  • 可逆残差层:为了节省内存,标准的神经网络存储每一层的激活值,以便在反向传播期间使用。这会消耗大量内存,尤其是在深度模型中。Reformer 使用可逆层,这允许在训练期间从后续层的激活值重新计算任何层的激活值。这消除了将激活值存储在内存中的需要,从而显着减少了内存占用,并能够训练更大的模型。原始的Reformer 研究论文详细介绍了这个概念。

应用

Reformer 处理长序列的能力使其适用于 机器学习 (ML) 中的各种任务,尤其是在 自然语言处理 (NLP) 及其他领域:

  • 长文档分析: 总结或回答关于整本书、冗长的研究文章或法律文件的问题,其中上下文跨越数千或数百万个单词。例如,可以使用 Reformer 模型来生成多章节技术报告的简洁 文本摘要
  • 基因组学: 处理长的 DNA 或蛋白质序列以进行分析和模式识别。基因组数据可能包含数十亿个碱基对,这使得 Reformer 成为识别模式或突变的理想架构。
  • 长格式媒体处理: 分析长音频文件以进行语音识别、基于扩展作品的音乐生成或长时间的视频分析。一个例子是有效地转录数小时的会议或讲座。
  • 图像生成: 一些方法将图像视为像素序列,尤其是在处理高分辨率图像时。Reformer 有潜力处理这些非常长的序列,用于诸如 文本到图像(Text-to-Image) 生成之类的任务。
  • 扩展时间序列分析: 对非常长的时间序列数据进行建模,例如预测几十年来的股市趋势或分析长期气候数据。

虽然像 Ultralytics YOLO 这样的模型专注于图像中的高效目标检测,通常使用卷积神经网络 (CNN)或使用 PyTorch 等框架构建的 RT-DETR 等混合架构,但在 Reformer 中探索的计算和内存效率原则与整个深度学习领域相关。了解此类进步有助于推动创新,从而实现更强大和更易于访问的 AI 模型。Ultralytics HUB 等平台旨在简化 AI 开发和模型部署

与其他长序列模型的比较

Reformer 是旨在克服标准 Transformer 局限性的几种模型之一。重要的是要将它与其他模型区分开来:

  • Longformer: 与 Reformer 类似,Longformer 专为长序列而构建。但是,它使用不同的注意力模式,将滑动窗口(局部注意力)与一些全局注意力 tokens 结合在一起。这使其对于局部上下文最为重要的文档非常有效,但对于捕获远距离关系,它不如 Reformer 基于哈希的方法灵活。
  • Transformer-XL: 该模型将循环机制引入 Transformer 架构,允许信息从一个文本段落流向下一个段落。Transformer-XL 在诸如语言建模等自回归任务中特别有效,但不像 Reformer 或 Longformer 那样,旨在一次性处理单个极长的输入。
  • 标准 Transformer: 原始的Transformer 模型使用完整的自注意力机制,使其非常有效,但由于其二次复杂度,对于超过几千个 token 的序列来说是不切实际的。Reformer 的主要贡献在于使类 Transformer 的性能对于更长的输入成为可能。您可以在我们的文档中找到更多模型比较

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板