遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Longformer

探索 Longformer 架构以高效处理长数据序列。了解稀疏注意力机制如何克服 NLP 和计算机视觉中的内存限制。

Longformer 是一种专门用于高效处理长序列数据的 Deep Learning 架构,旨在克服传统模型的局限性。它最初是为了解决标准 Transformers 的局限性而引入的,由于内存限制,标准 Transformer 通常难以处理超过 512 个 token 的序列。为此,Longformer 采用了一种改进的 attention mechanism。通过将计算复杂度从二次方降低到线性,该架构使 AI 系统能够一次性分析整个文档、超长文字记录或复杂的基因序列,而无需截断输入。

Link to this section注意力瓶颈问题#

要理解 Longformer 的重要性,必须先看看 BERT 和早期 GPT-3 模型等前辈的局限性。标准 Transformer 使用一种“自注意力”操作,即序列中的每个 token(单词或单词的一部分)都会关注序列中的所有其他 token。这会产生二次方的计算成本;序列长度加倍,GPU 所需的内存就会增加四倍。因此,大多数标准模型对输入大小都有严格限制,这往往迫使数据科学家将文档切割成更小、不连续的片段,从而导致上下文信息的丢失。

Longformer 通过引入 Sparse Attention(稀疏注意力)解决了这个问题。它不再使用完全的全连接,而是结合了窗口化局部注意力和全局注意力:

  • Sliding Window Attention(滑动窗口注意力):每个 token 仅关注其相邻的 token。这能捕捉到局部上下文和句法结构,类似于 Convolutional Neural Network (CNN) 处理图像的方式。
  • Dilated Sliding Window(膨胀滑动窗口):为了在不增加计算量的情况下扩大 receptive field,该窗口可以包含间隙,使模型能够看到文本中更“远”的地方。
  • Global Attention(全局注意力):特定的预选 token(如分类 token [CLS])会关注序列中的所有其他 token,而所有 token 也都会关注它们。这确保了模型能够针对 text summarization 等任务保持对整个输入的高层理解。

Link to this section实际应用#

能够同时处理数千个 token 的能力,为 Natural Language Processing (NLP) 及相关领域开启了新的可能性。

Link to this section法律和医疗文档分析#

在法律和医疗等行业,文档通常都很长。一份法律合同或病人的医疗记录可能跨越几十页。传统的 Large Language Models (LLMs) 需要将这些文档分段,这可能会导致漏掉第 1 页条款和第 30 页定义之间关键的依赖关系。Longformer 允许对整个文档同时进行 Named Entity Recognition (NER) 和分类,确保全局上下文影响对特定术语的解读。

Link to this section长文本问答 (QA)#

标准的 Question Answering 系统在回答需要综合长篇文章中分散信息的问题时,往往表现不佳。通过将完整文本保留在内存中,基于 Longformer 的模型可以执行多跳推理,连接不同段落中发现的事实来生成全面的答案。这对自动化技术支持系统和学术研究工具至关重要。

Link to this section区分关键术语#

  • Longformer 与 Transformer 的对比: 标准 Transformer 使用完整的 $N^2$ 注意力,使其精度高但对于长输入计算成本昂贵。Longformer 使用稀疏的 $N$ 注意力,以牺牲微不足道的理论容量为代价换取了巨大的效率提升,支持 4,096 个 token 或更多的输入。
  • Longformer 与 Transformer-XL 的对比: 虽然两者都能处理长序列,但 Transformer-XL 依赖循环机制(缓存以前的状态)来记住过去的片段。Longformer 则原生一次性处理长序列,这简化了在 Ultralytics Platform 等平台上的并行训练。
  • Longformer 与 BigBird 的对比: 这是在大约同一时间开发的非常相似的架构。两者都使用稀疏注意力机制来实现线性扩展。BigBird 除了滑动窗口外,还引入了特定的随机注意力组件。

Link to this section实现概念#

虽然 Longformer 是一种架构而非特定功能,但了解如何为长上下文模型准备数据至关重要。在 PyTorch 等现代框架中,这通常涉及管理超出标准限制的 embeddings

以下示例演示了如何为长上下文场景创建模拟输入张量,并将其与 YOLO26 等标准检测模型中使用的典型尺寸进行对比。

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

Link to this section与计算机视觉的相关性#

尽管 Longformer 最初是为文本设计的,但其背后的原理已经影响了 Computer Vision。将注意力限制在局部邻域的概念,类似于视觉任务中的局部操作。视觉 Transformer (ViT) 在处理高分辨率图像时也面临类似的扩展问题,因为像素(或补丁)的数量可能非常巨大。源自 Longformer 稀疏注意力的技术被用于提高 image classificationobject detection 的效率,帮助像 YOLO26 这样的模型在处理详细视觉数据时保持高速运行。

有关架构细节的进一步阅读,AllenAI 撰写的 original Longformer paper 提供了深入的基准测试和理论依据。此外,对此类大型模型的高效训练通常受益于 mixed precision 和先进的 optimization algorithms 等技术。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅