敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

Transformer-XL

探索 Transformer-XL 如何通过分段循环和长程上下文处理等创新技术,革新序列建模。

Transformer-XL,全称 Transformer-Extra Long,是一种先进的神经网络架构,旨在克服原始 Transformer 模型的主要局限性之一:无法处理极长的数据序列。Transformer-XL 由 Google AI卡内基梅隆大学 的研究人员开发,引入了一种新颖的递归机制,使模型能够学习超出固定长度上下文的依赖关系。这使其能够比之前的模型更有效地处理涉及长文本的任务,例如书籍或文章,使其成为 自然语言处理 (NLP) 领域的一项关键发展。

该架构的创新之处在于解决了上下文碎片化的问题,即标准的 Transformer 在孤立的片段中处理数据,从而丢失了从一个片段到下一个片段的所有上下文信息。Transformer-XL 通过缓存和重用为先前片段计算的隐藏状态来解决这个问题,从而在它们之间创建了一个循环连接。这使得信息可以跨片段流动,赋予模型一种记忆形式和一个更大的有效 上下文窗口

工作原理

Transformer-XL 的有效性源于对标准 Transformer 的两项核心架构改进:

  • 分段级循环机制: Transformer-XL 不是独立处理每个文本段,而是重用先前处理的段中的隐藏状态作为当前段的上下文。这种技术受到循环神经网络 (RNN)机制的启发,可防止上下文碎片化,并使模型能够构建更丰富、更长期的数据理解。这对于保持长篇文本生成的连贯性至关重要。
  • 相对位置嵌入: 原始 Transformer 使用绝对位置嵌入来理解词序,但是当跨段重用隐藏状态时,此方法会变得不一致。Transformer-XL 引入了一种更复杂的相对定位方案。它不是对 token 的绝对位置进行编码,而是对 注意力机制中 token 之间的相对距离进行编码。这使得模型在处理新的、更长的序列时更加稳健和通用。

相关性和应用

Transformer-XL 建模长程依赖关系的能力使其在各种序列任务中非常有效,尤其是在 NLP 中。

  • 语言建模: 通过捕捉比以往模型更长的上下文,在字符级和词级的语言建模基准测试(如enwik8WikiText-103)上取得了最先进的结果。这种对语言结构的更深入理解对于生成连贯且上下文相关的文本至关重要。例如,基于Transformer-XL的模型可以写一部小说,其中第一章中提到的细节在最后一章中始终被记住和引用。
  • 长文档处理: 涉及长文档的任务,例如文本摘要、针对长篇文章的问答,或分析整本书籍或代码库,都可以从其扩展的上下文窗口中获益。AI 法律助手可以使用此架构来阅读一份数百页的合同,并准确回答有关相互关联的条款的问题,无论这些条款在文档中相隔多远。
  • 强化学习: 其改进的记忆能力也已在需要长期规划的强化学习任务中得到应用。

虽然 Transformer-XL 主要以 NLP 闻名,但其高效处理长序列的原则与整个机器学习 (ML)领域息息相关,可能会影响时间序列分析甚至处理视频数据的计算机视觉 (CV)的架构。架构创新通常会相互影响;例如,Transformer 本身就启发了用于图像分析的 Vision Transformers (ViT)Hugging Face 等平台托管了各种实现和预训练模型,从而促进了研究和应用开发。 您可以在论文"Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context"中探索原始研究。 了解这种先进的架构有助于指导跨各种领域的模型开发和微调,包括通过 Ultralytics HUB 等平台管理和部署的模型。

与相关术语的比较

  • 标准Transformer: 主要区别在于对上下文的处理。标准的Transformer以固定的、孤立的块处理信息,导致上下文碎片化。Transformer-XL引入了一种递归机制来链接这些块,使其能够对跨越它们的依赖关系进行建模。
  • Longformer: 虽然这两种模型都是为长序列设计的,但 Longformer 使用不同的注意力模式——滑动窗口和全局注意力令牌的组合——来实现效率。它通常用于需要单个长输入的双向上下文的任务,而 Transformer-XL 的优势在于自回归生成,其中来自过去片段的上下文至关重要。
  • Reformer: Reformer 同样针对长序列,但通过不同的方法实现效率提升,即局部敏感哈希 (LSH) 注意力和可逆残差层。它侧重于减少内存使用和计算成本,而 Transformer-XL 的核心创新是通过循环克服上下文碎片化。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板