Yolo 深圳
深セン
今すぐ参加
用語集

Longformer

ロングフォーマーアーキテクチャを探求し、長いデータシーケンスを効率的に処理する方法を学びましょう。スパースアテンションが自然言語処理(NLP)とコンピュータビジョンにおけるメモリ制限をどのように克服するか理解しましょう。

ロングフォーマーは、従来のモデルの限界を克服し、長いデータシーケンスを効率的に処理するために設計された特殊なディープラーニングアーキテクチャである。 標準的なトランスフォーマーはメモリ制限により通常512トークンを超えるシーケンスの処理に苦戦するため、その制約に対処するために導入されたロングフォーマーは改良型アテンション機構を採用している。計算複雑性を二次から一次へ低減することで、このアーキテクチャはAIシステムが入力を切り詰めることなく、文書全体、長大な記録、複雑な遺伝子配列を単一パスで分析することを可能にする。

注意力のボトルネック問題

ロングフォーマーの重要性を理解するには、BERT初期のGPT-3モデルといった先行モデルの限界を考察することが不可欠である。標準的なトランスフォーマーは「自己注意」操作を用い、各トークン(単語または単語の一部)がシーケンス内の他の全トークンに注意を向ける。これにより計算コストが二次関数的に増加し、シーケンス長が倍になると必要なメモリは4倍になる。 GPU。その結果、ほとんどの標準モデルは入力サイズに厳しい制限を課し、データサイエンティストが文書を小さく分断されたセグメントに分割することを余儀なくされることが多く、文脈の喪失を招いています。

ロングフォーマーはスパースアテンションを導入することでこの問題を解決する。完全な全結合ではなく、 ウィンドウ化された局所アテンションと全局アテンションの組み合わせを利用する:

  • スライディングウィンドウ注意:各トークンはその直近の隣接トークンのみを考慮する。これにより局所的な文脈と構文構造が捕捉され、これは畳み込みニューラルネットワーク(CNN)が画像を処理する仕組みに類似している。
  • 拡張スライドウィンドウ:計算量を増加させずに受容野を拡大するため、ウィンドウに隙間を設けることで、モデルがテキスト内の「より遠く」まで認識できるようにする。
  • グローバルアテンション: 特定の事前選択されたトークン(分類トークンのようなもの) [CLS]シーケンス内の他のすべてのトークンに注意を払い、すべてのトークンがそれらに注意を払う。これにより、モデルは次のようなタスクにおいて入力全体に対する高次元の理解を維持できる。 テキスト要約.

実際のアプリケーション

数千のトークンを同時に処理する能力は、 自然言語処理(NLP) およびその先にある新たな可能性を切り開きます。

1. 法的・医療文書の分析

法律や医療などの業界では、文書が短いことはほとんどありません。法的契約書や患者の病歴は数十ページに及ぶこともあります。従来の大規模言語モデル(LLM)では、 これらの文書を分割する必要があり、 1ページ目の条項と30ページ目の定義の間の 重要な依存関係を見落とす可能性がありました。 Longformerは、 名前付きエンティティ認識(NER)と分類を 文書全体に対して一度に実行できるため、 グローバルな文脈が特定の用語の解釈に影響を与えることが保証されます。

2. 長文質問応答(QA)

標準的な質問応答システムは、回答が長文に分散した情報の統合を必要とする場合にしばしば苦戦する。 Longformerベースのモデルは全文をメモリ内に保持することで、異なる段落に存在する事実を結びつけて包括的な回答を生成するマルチホップ推論を実行できる。これは自動化された技術サポートシステムや学術研究ツールにとって極めて重要である。

主要用語の区別

  • ロングフォーマー対トランスフォーマー 標準的なトランスフォーマーは完全な$N^2$注意機構を使用するため、長大な入力に対しては正確ではあるが計算コストが高い。 ロングフォーマーは疎な$N$注意機構を採用し、理論上の容量をわずかに犠牲にすることで大幅な効率向上を実現。 これにより4,096トークン以上の入力が可能となる。
  • Longformer 対Transformer-XL: 両者とも長いシーケンスを処理しますが、Transformer-XL は過去のセグメントを記憶するために再帰的メカニズム(過去の状態のキャッシュ)に依存します。Longformer は長いシーケンスをネイティブに一括処理するため、Ultralytics などのプラットフォームでの並列トレーニングが簡素化されます。
  • Longformer vs.BigBird:これらはほぼ同時期に開発された非常に類似したアーキテクチャである。 両者とも疎なアテンション機構を用いて線形スケーリングを実現している。 BigBirdはスライディングウィンドウに加え、特定のランダムアテンションコンポーネントを導入している。

実装の概念

Longformerは特定の機能ではなくアーキテクチャであるが、長文コンテキストモデル向けにデータを準備する方法を理解することは極めて重要である。PyTorchのような現代的なフレームワークでは PyTorchでは、標準的な制限を超える埋め込みデータの管理が頻繁に必要となる。

以下の例は、長いtensor を作成する方法を示し、YOLO26のような標準的な検出モデルで使用される典型的なサイズと比較しています。

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

コンピュータ・ビジョンとの関連性

もともとテキスト用に設計されたものの、Longformerの背後にある原理はコンピュータビジョンに影響を与えている。注意を局所的な領域に限定する概念は、視覚タスクにおける局所的な操作に類似している。Vision Transformers(ViT)は高解像度画像において同様のスケーリング問題に直面する。ピクセル(またはパッチ)の数が膨大になり得るためである。 Longformerの疎な注意機構から派生した技術は、 画像分類や 物体検出の効率向上に活用され、 YOLO26のようなモデルが詳細な視覚データを処理しながら 高速性を維持するのに貢献している。

アーキテクチャの詳細については、AllenAIによるオリジナルのLongformer論文が詳細なベンチマークと理論的根拠を提供しています。さらに、このような大規模モデルの効率的な学習には、混合精度や 高度な最適化アルゴリズムといった技術がしばしば有効です。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加