敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

Longformer

探索 Longformer,这是一种针对长序列优化的 Transformer 模型,为 NLP、基因组学和视频分析提供可扩展的效率。

Longformer 是一种先进的、基于 Transformer 的模型,旨在高效地处理非常长的文档。它由 Allen 人工智能研究所 的研究人员开发,其主要创新是一种注意力机制,该机制随序列长度线性缩放,这与 BERT 等标准 Transformer 模型的二次缩放不同。这种效率使得在包含数千甚至数万个 token 的文本上执行复杂的 自然语言处理 (NLP) 任务成为可能,这对于早期架构来说在计算上是令人望而却步的。

Longformer 的工作原理

Longformer 效率的核心在于其独特的注意力模式,它取代了标准 Transformer 的完整自注意力机制。Longformer 没有让每个 token 都关注其他 token,而是结合了两种类型的注意力:

  • 滑动窗口(局部)注意力: 大多数 token 只关注两侧固定数量的相邻 token。这捕获了局部上下文,类似于人类读者如何根据紧邻的词语来理解单词。这种方法的灵感来自卷积神经网络 (CNN)在利用局部模式方面的成功。
  • 全局注意力: 少量预先选择的 tokens 被指定为具有全局注意力,这意味着它们可以关注整个序列中的所有其他 tokens。这些“全局”tokens 充当从整个文档中收集高级信息的收集器。对于特定任务 微调,这些全局令牌通常是经过策略性选择的,例如 [CLS] 用于分类任务的token。

这种组合在计算效率和捕获理解复杂文档所需的远程依赖性之间实现了平衡。原始研究在论文“Longformer: The Long-Document Transformer”中有详细介绍。

在 AI 和机器学习中的应用

Longformer 处理长序列的能力为许多以前不切实际的应用开辟了可能性。

  • 长文档分析: 它可以对整本书、冗长的研究论文或复杂的法律文件执行诸如 文本摘要问答 等任务。例如,一家法律科技公司可以使用基于 Longformer 的模型自动扫描数千页的发现文件,以查找相关证据。
  • 对话系统和聊天机器人:聊天机器人或虚拟助手环境中,Longformer可以维护更长的对话历史记录,从而在更长的时间内实现更连贯和上下文感知的交互。
  • 基因组学和生物信息学: 它的架构非常适合分析长的 DNA 或蛋白质序列,帮助研究人员识别大量遗传数据集中的模式和功能。研究实验室可以应用它来查找整个染色体中的特定基因序列。

预训练的 Longformer 模型已广泛应用于 Hugging Face 等平台,开发者可以根据不同的任务对其进行调整。

与相关术语的比较

Longformer 是旨在克服标准 Transformer 在处理长序列时所面临的局限性的模型之一。

  • 标准 Transformer: 关键区别在于注意力机制。Longformer 的高效注意力模式专为长序列设计,而标准 Transformer 中的完整自注意力对于长输入来说,内存和计算量都太大。
  • Reformer: 另一种高效的 Transformer,Reformer 使用局部敏感哈希(LSH)注意力和可逆层等技术来减少资源使用。虽然两者都针对长序列,但它们采用不同的技术策略来实现效率。
  • Transformer-XL: 该模型引入了递归和相对位置嵌入来管理更长的上下文,使其在文本生成等自回归任务中特别有效。相比之下,Longformer旨在一次性处理具有双向上下文的单个长文档。

虽然这些 NLP 模型不同于计算机视觉 (CV)模型(如 Ultralytics YOLO,它擅长目标检测等任务),但对计算效率的追求是一个共同的主题。像 Longformer 中的创新一样,降低复杂性的创新对于使强大的深度学习模型能够实际用于实时推理和在各种硬件上进行模型部署至关重要。使用诸如 Ultralytics HUB 之类的平台可以简化对此类高级模型的管理。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板