词汇表

Transformer-XL

探索 Transformer-XL 如何通过分段循环和长程上下文处理等创新技术，革新序列建模。

Transformer-XL，全称 Transformer-Extra Long，是一种先进的神经网络架构，旨在克服原始 Transformer 模型的主要局限性之一：无法处理极长的数据序列。Transformer-XL 由 Google AI 和卡内基梅隆大学的研究人员开发，引入了一种新颖的递归机制，使模型能够学习超出固定长度上下文的依赖关系。这使其能够比之前的模型更有效地处理涉及长文本的任务，例如书籍或文章，使其成为自然语言处理 (NLP) 领域的一项关键发展。

该架构的创新之处在于解决了上下文碎片化的问题，即标准的 Transformer 在孤立的片段中处理数据，从而丢失了从一个片段到下一个片段的所有上下文信息。Transformer-XL 通过缓存和重用为先前片段计算的隐藏状态来解决这个问题，从而在它们之间创建了一个循环连接。这使得信息可以跨片段流动，赋予模型一种记忆形式和一个更大的有效上下文窗口。

工作原理

Transformer-XL 的有效性源于对标准 Transformer 的两项核心架构改进：

分段级循环机制： Transformer-XL 不是独立处理每个文本段，而是重用先前处理的段中的隐藏状态作为当前段的上下文。这种技术受到循环神经网络 (RNN)机制的启发，可防止上下文碎片化，并使模型能够构建更丰富、更长期的数据理解。这对于保持长篇文本生成的连贯性至关重要。
相对位置嵌入： 原始 Transformer 使用绝对位置嵌入来理解词序，但是当跨段重用隐藏状态时，此方法会变得不一致。Transformer-XL 引入了一种更复杂的相对定位方案。它不是对 token 的绝对位置进行编码，而是对注意力机制中 token 之间的相对距离进行编码。这使得模型在处理新的、更长的序列时更加稳健和通用。

与相关术语的比较

标准Transformer: 主要区别在于对上下文的处理。标准的Transformer以固定的、孤立的块处理信息，导致上下文碎片化。Transformer-XL引入了一种递归机制来链接这些块，使其能够对跨越它们的依赖关系进行建模。
Longformer: 虽然这两种模型都是为长序列设计的，但 Longformer 使用不同的注意力模式——滑动窗口和全局注意力令牌的组合——来实现效率。它通常用于需要单个长输入的双向上下文的任务，而 Transformer-XL 的优势在于自回归生成，其中来自过去片段的上下文至关重要。
Reformer: Reformer 同样针对长序列，但通过不同的方法实现效率提升，即局部敏感哈希 (LSH) 注意力和可逆残差层。它侧重于减少内存使用和计算成本，而 Transformer-XL 的核心创新是通过循环克服上下文碎片化。

Transformer-XL

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

工作原理

相关性和应用

与相关术语的比较

阅读更多此类别的内容

从比特到量子比特：量子优化如何重塑人工智能

如何训练人工智能模型的初学者快速指南

来自迪拜的真知灼见：2025 年 GDG 中东和北非峰会的主要收获

加入 Ultralytics 社区