术语表

Longformer

了解 Longformer,它是专为长序列优化的转换器模型,可为 NLP、基因组学和视频分析提供可扩展的效率。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

Longformer 是一种Transformer模型,专为高效处理超长文本序列而设计。它由艾伦人工智能研究所(AI2)开发,解决了BERTGPT 等标准变换器模型的一个主要局限性,即其计算和内存需求随序列长度呈二次方增长。这使得标准变换器在处理涉及数千个标记的任务(如处理整个文档、书籍或长对话)时变得不切实际。Longformer 利用优化的注意力机制来处理这些长序列,从而可以将 Transformers 的强大功能应用到更广泛的自然语言处理 (NLP)任务中。

Longformer 如何工作

Longformer 的核心创新在于其高效的自我关注模式。标准变换器使用 "完全 "自关注机制,即每个标记都关注序列中的其他标记。虽然功能强大,但这会导致二次复杂性瓶颈。而 Longformer 则采用了多种关注模式的组合来取代这一机制:

  1. 滑动窗口关注:每个标记只关注其周围固定大小的相邻标记窗口。这能有效捕捉局部语境,并随序列长度线性伸缩。
  2. 稀释滑动窗口注意:为了在不增加计算量的情况下扩大感受野,窗口可以 "扩张",这意味着它可以跳过视野内的一些标记,从而捕捉到更远标记的信息,同时仍然只关注固定数量的标记。
  3. 全球关注: 某些预选标记符(如 [CLS] 用于分类任务)可以关注整个序列,而整个序列也可以关注它们。这就确保了特定任务的信息可以进行全局整合。

这种组合使 Longformer 能够建立包含本地和全局信息的上下文表示法,与标准 Transformers 相似,但计算复杂度与序列长度成线性而非二次方关系。这使得处理数以万计的标记序列成为可能,而 BERT 等模型通常只有 512 或 1024 个标记的限制。在Hugging Face 变换器等库中,可以很容易地找到实现方法。

主要功能和优点

  • 效率:计算量和内存与序列长度成线性比例,可处理更长的文件。
  • 可扩展性:可处理的序列长度主要受硬件内存限制(如 4096 个令牌或更多,而标准 BERT 为 512 个)。
  • 性能在各种 NLP 任务中保持强劲的性能,当长距离依赖关系非常重要时,其性能往往优于局限于较短上下文的模型。
  • 灵活性:在许多深度学习架构中,可直接替代标准变压器层。
  • 预训练和微调:可在大型文本库上进行预训练,然后针对特定的下游任务进行微调,与其他 Transformer 模型类似。

实际应用

Longformer 处理长序列的能力释放了其在各个领域的能力:

  • 文件摘要:总结长篇文章、研究论文或报告,其中的关键信息可能分散在整个文本中。标准模型可能会因为截断而遗漏上下文。
  • 长文档答疑:根据法律合同、技术手册或书籍等长篇文档中包含的信息回答问题,而无需将文档分割成可能会破坏上下文的小块。例如,法律人工智能可以使用 Longformer 查找 100 页合同中的相关条款。
  • 科学文献分析:处理和理解长篇科学论文中的复杂关系和研究结果,以完成信息提取或知识图谱构建等任务。
  • 对话系统:分析聊天机器人虚拟助手的长对话历史,在长时间互动中保持更好的上下文和连贯性。

人工智能/移动语言的意义

Longformer 是深度学习模型在理解和推理长篇文本方面迈出的重要一步。通过克服标准变换器的二次复杂性瓶颈,它允许大型语言模型(LLM)更有效地处理涉及文档、书籍和扩展对话的任务。这种能力对于需要深入理解上下文的应用来说至关重要,它突破了人工智能(AI)在处理长篇格式的人类语言方面所能达到的极限。

虽然像 Ultralytics YOLO11等模型在物体检测图像分割计算机视觉(CV)任务中表现出色,而 Longformer 则在处理 NLP 领域复杂的长篇文本数据方面取得了类似的进步。Ultralytics HUB等工具可简化各种人工智能模型的部署和管理,其中可能包括 Longformer 等 NLP 模型,这些模型已通过以下框架针对特定任务进行了微调 PyTorchTensorFlow.

与相关术语的比较

  • 标准变压器:Longformer 是对标准变换器架构的改进。其主要区别在于 Longformer 专为长序列设计的高效注意力机制(滑动窗口 + 全局注意力),而标准 Transformer 使用完全的自我注意力,这对于长输入来说计算成本很高。
  • Reformer另一种高效的 Transformer 变体Reformer 使用了位置敏感哈希(LSH)注意和可逆残差层等技术来降低内存和计算成本。虽然两者都以长序列为目标,但它们采用了不同的技术方法来实现高效。
  • 变换器-XL Transformer-XL引入了递归和相对位置嵌入,可处理比标准 Transformer 更长的上下文,尤其适用于自动回归语言建模。Longformer 利用其特定的注意力模式,更专注于单个长序列中的双向语境。
阅读全部