深圳Yolo 视觉
深圳
立即加入
词汇表

Longformer

探索长序列架构,高效处理长数据序列。了解稀疏注意力机制如何突破自然语言处理与计算机视觉领域的内存限制。

长序列处理器是一种专门设计的深度学习架构,旨在高效处理长序列数据,从而突破传统模型的局限性。 该架构最初为解决标准Transformer的局限性而诞生——后者因内存限制通常难以处理超过512个令牌的序列。Longformer通过改良注意力机制,将计算复杂度从二次降至线性,使AI系统能够一次性完整分析文档、长篇记录或复杂基因序列,无需截断输入数据。

注意力瓶颈问题

要理解长文本模型的意义,必须审视其前辈(如BERT和 早期GPT-3模型)的局限性。标准变压器采用"自我注意力"机制,即序列中每个标记(单词或词段)都会关注其他所有标记。这导致计算成本呈二次增长:序列长度翻倍会使所需内存增加四倍。 GPU。因此多数标准模型对输入规模设定了严格限制,迫使数据科学家将文档分割为零散的小段,导致上下文信息严重流失。

Longformer通过引入稀疏注意力机制解决了这一问题。它摒弃了全连接模式, 转而采用窗口化局部注意力与全局注意力的组合方案:

  • 滑动窗口注意力:每个令牌仅关注其直接邻居。这捕捉了局部上下文和句法结构,类似于卷积神经网络(CNN)处理图像的方式。
  • 扩展滑动窗口:为在不增加计算量的前提下扩大感受野,窗口可包含间隙,使模型能够观察文本中更远的位置。
  • 全局注意力: 特定预选标记(如分类标记) [CLS]处理序列中的所有其他标记,所有标记也同时处理它们。这确保模型在处理诸如...等任务时,能够保持对整个输入的高层次理解。 文本摘要.

实际应用

同时处理数千个标记的能力为 自然语言处理(NLP) 及其他领域开辟了全新可能性。

1. 法律与医疗文件分析

在法律和医疗等行业,文件很少简短。一份法律合同或患者病历可能长达数十页。传统大型语言模型(LLMs)需要将这些文档拆分处理,可能导致第1页条款与第30页定义之间的关键关联性丢失。Longformer模型支持对整篇文档进行命名实体识别(NER)和分类处理,确保全局语境能影响特定术语的解读。

2. 长篇问答(QA)

标准问答系统在处理需要整合长篇文献分散信息的问题时往往力不从心。基于长文本模型的系统通过将全文保存在内存中,能够进行多跳推理,将不同段落中的事实关联起来生成全面的答案。这对自动化技术支持系统和学术研究工具至关重要。

区分关键术语

  • Longformer 与Transformer 的对比: 标准Transformer 完整的 $N^2$ 注意力机制,在处理长输入时虽能保证精度,但计算成本高昂。 Longformer 则采用稀疏 $N$ 注意力机制,以微不足道的理论容量损失换取巨大的效率提升, 可处理 4,096 个及以上令牌的输入。
  • Longformer 与Transformer 的对比: 虽然两者都能处理长序列,但Transformer 依赖递归机制(缓存先前状态)来 记忆过去的片段。Longformer 则原生支持一次性处理长序列,这使得在Ultralytics Ultralytics 上进行并行训练变得更简单。
  • Longformer 与BigBird这两种架构非常相似,且开发时间相近。它们都采用稀疏注意力机制来实现线性扩展。BigBird 在滑动窗口机制之外,还引入了特定的随机注意力组件。

实施概念

尽管Longformer是一种架构而非特定功能,但理解如何为长上下文模型准备数据至关重要。在PyTorch等现代框架中 PyTorch中,这通常涉及管理 超出标准限制的嵌入向量

以下示例演示了tensor 长上下文场景创建模拟输入tensor ,并与YOLO26等标准检测模型中使用的典型尺寸进行对比。

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

与计算机视觉的相关性

尽管最初为文本处理而设计,Longformer背后的原理已对计算机视觉领域产生深远影响。将注意力局限于局部邻域的概念,与视觉任务中的局部化操作具有相似性。视觉变换器(ViT)在处理高分辨率图像时同样面临可扩展性问题,因为像素(或图像块)数量可能极其庞大。 基于Longformer稀疏注意力机制衍生出的技术,显著提升了图像分类目标检测效率,使YOLO26等模型在处理精细视觉数据时仍能保持高速运行。

若需深入了解架构细节,AllenAI的原始Longformer论文提供了详尽的基准测试和理论论证。此外,混合精度高级优化算法等技术通常能有效提升此类大型模型的训练效率。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入