深圳Yolo 视觉
深圳
立即加入
词汇表

Longformer

了解 Longformer,它是专为长序列优化的transformer 模型,可为 NLP、基因组学和视频分析提供可扩展的效率。

Longformer 是一款经过修改的 Transformer 架构, 专为高效处理长序列数据而设计,突破了 BERT等传统模型的输入长度限制。 标准Transformer模型虽功能强大,但其内存消耗随序列长度呈二次增长, 导致处理数百词以上的文档时计算成本过高。 Longformer通过采用 稀疏注意力机制 实现线性扩展,从而能够处理包含数千个词元的文档。这一能力使其成为现代 自然语言处理(NLP) 任务中的基石技术,尤其适用于处理法律合同分析、书籍摘要或基因组数据等涉及海量文本的场景。

结构:稀疏关注

Longformer 背后的关键创新点在于,它不同于标准深度学习(DL)模型中使用的完全自我关注(self-attention)。 深度学习 (DL)模型中使用的完全自我关注。在传统设置中 每个令牌都会关注其他令牌,从而形成密集的连接网络,迅速耗尽内存。Longformer 用一种更高效、更稀疏的方法取而代之,既能保持高性能,又能降低 计算复杂性

  • 注意推拉窗受卷积神经网络(CNN)局部连接性的启发 卷积神经网络(CNN)的启发,Longformer 使用了一个滑动窗口,其中每个标记只关注其近邻。这就捕捉到了 对理解语法和句子结构至关重要的局部语境。
  • 全球关注:为了理解文件的大背景,指定特定的标记符 来关注整个序列。这样,模型就能执行以下任务 问题解答或分类等任务。 聚合整个输入的信息,缩小局部细节与全局理解之间的差距。 理解。

这种混合机制允许研究人员在标准硬件上处理多达 4,096 个令牌或更多令牌的序列、 大大扩展了可用于分析的上下文窗口 用于分析的上下文窗口。

实际应用

无需截断就能分析长序列的能力为数据连续性至关重要的各个领域带来了新的可能性。 连续性至关重要。

  • 法律和财务摘要:专业人士经常需要从冗长的 协议或年度报告中提取深刻见解。Longformer 提供先进的 文本摘要工具,可以一次性消化 整份文件,确保合同末尾的关键条款与导言一起得到考虑。 导言。
  • 基因组研究:在生物信息学领域,科学家们分析 DNA 序列 极长的生物文本字符串。Longformer 通过对遗传密码固有的长程依赖关系建模,帮助识别基因功能和预测蛋白质结构。 通过对遗传密码中固有的长程依赖关系建模,Longformer 可帮助识别基因功能和预测蛋白质结构。 标准大型语言模型 (LLM) 难以完成的任务。

区分长方体与相关概念

将 Longformer 与其他架构进行比较,有助于为特定的人工智能(AI)项目选择合适的工具。 人工智能(AI)项目选择合适的工具。

  • Transformer原始架构提供全连接能力,适用于短句处理,但面对长输入时会因内存限制而受限。Longformer通过线性复杂度实现了对该特性的近似。
  • Reformer与 Longformer 一样,Reformer 的目标是提高效率,但使用 位置敏感散列(LSH)来分组 同类标记和可逆残余层。对于需要严格定义局部上下文(相邻词语)的任务,Longformer 通常是首选。 而当内存成为绝对瓶颈时,Reformer 则非常有用。
  • Transformer该模型 通过递归方式处理长度,保留对过去片段的记忆。Longformer 同时处理整个长序列,这对于非自回归任务(如文档分类)非常有利。

高效推理示例

正如Longformer通过优化文本处理来提升速度和内存效率,现代视觉模型也通过优化图像处理来高效处理复杂输入。下例Ultralytics 演示高效推理过程,这与采用优化架构处理数据而不超载硬件资源的概念相呼应。

from ultralytics import YOLO

# Load a YOLO26 model, optimized for speed and efficiency similar to Longformer's design goals
model = YOLO("yolo26n.pt")

# Perform inference on an image URL
# The model processes the input effectively in a single pass
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Output the detection summary
for result in results:
    print(f"Detected {len(result.boxes)} objects.")

通过减少处理大型输入所需的内存占用,Longformer等架构使开发者能够构建更复杂的人工智能代理和分析工具。这种向线性可扩展性的转变对未来模型部署至关重要,确保强大的人工智能始终保持可访问性和高效性。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入