用語集

トランスフォーマーXL

Transformer-XLが、セグメントレベルの再帰や長距離コンテキストの処理といった革新的な技術によって、シーケンスモデリングにどのような革命をもたらしたかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Transformer-XL(Transformer-ExtraLong)は、オリジナルのTransformerアーキテクチャを大きく進化させたもので、主にシーケンシャルデータの長距離依存関係をより効果的に処理するように設計されている。Google AIとCarnegie Mellon Universityの研究者によって開発されたこのTransformer-XLは、自然言語処理(NLP)やそれ以降のタスクにおいて重要な、非常に長いシーケンスを処理する際に標準的なTransformerに内在するコンテキストの断片化の制限に対処しています。Transformer-XLは、固定長のセグメントを個別に処理するバニラTransformerとは異なり、セグメント間で情報を再利用するメカニズムを導入し、モデルがはるかに長いコンテキストで首尾一貫した理解を構築することを可能にする。

トランスフォーマーXLのコアコンセプト

Transformer-XLは、長いシーケンスを扱う際の標準的なトランスフォーマーの限界を克服するために、2つの重要な革新技術を導入しています:

  1. セグメントレベルの再帰:標準的なトランスフォーマーは、長いシーケンスを固定サイズのセグメントに分割して処理する。しかし、これらのセグメント間では情報が流れないため、コンテキストが断片化する。Transformer-XLは再帰機構を導入し、前のセグメントで計算された隠された状態をキャッシュし、現在のセグメントを処理するときにコンテキストとして再利用する。これにより、セグメントをまたいで情報が伝搬し、1つのセグメントの長さをはるかに超える効果的なコンテキストが作成される。これは、リカレント・ニューラル・ネットワーク(RNN)が状態を維持する方法と概念的に似ているが、Transformerの自己注意フレームワークの中に統合されている。
  2. 相対位置エンコーディング:元の Transformer では、シーケンス内のトークンの位置をモデルに知らせるために、絶対位置エンコーディングを使用していました。セグメントレベルの再帰を適用する場合、絶対位置エンコーディングを再利用すると、同じ位置インデックスが異なるセグメントに出現することになり、曖昧さが生じるという問題がある。Transformer-XL では、トークンの絶対位置ではなく、トークン間の距離に基づいて位置を定義する相対位置エンコーディングを採用しています。これにより、異なるセグメント間で位置情報の一貫性が保たれ、推論中にシーケンスの長さが変わっても、モデルがうまく汎化できるようになります。

トランスフォーマーXLの仕組み

学習と推論の間、Transformer-XL は入力シーケンスをセグメントごとに処理する。それぞれの新しいセグメントに対して、そのセグメント内のトークンに基づくだけでなく、前のセグメ ントからキャッシュされた隠された状態も使用して、アテンションスコアを計算する。このキャッシュされた情報は、過去の文脈を提供する。相対的な位置エンコーディングを使用することで、キャッシュされた前のセグ メントのトークンにアテンションする場合でも、アテンションメカニズムがトークンの相対的な位 置を正しく解釈することができる。このアプローチは、標準的なトランスフォーマーでシーケンス全体を一度に処理するよりも計算 効率を維持しながら、モデルが捕捉できる依存関係の長さの最大値を大幅に増加させます。この方法は、長い係り受けに対する勾配の消失のような問題を防ぐのに役立ちます。

トランスフォーマーXLと標準トランスフォーマーおよび関連モデルとの比較

主な違いは、シーケンスの長さとコンテキストの扱いにある:

  • コンテキストの長さ:標準的なTransformerは、セグメントサイズによって決まる固定された最大コンテキスト長を持つ。Transformer-XLは、再帰メカニズムにより、潜在的に数千トークンの長さの依存関係をキャプチャすることができます。
  • 計算:Transformer-XLは、前のセグメントの計算が再利用されるため、長いシーケンスの評価において、標準的なTransformerよりも大幅に高速化できる。
  • メモリ:隠された状態をキャッシュすることは、追加のメモリを必要とするが、シーケンスの以前の部分の表現を再計算することを避けることができる。
  • 関連モデル: BERTや GPT(Generative Pre-trained Transformer)のようなモデルもTransformerアーキテクチャをベースにしているが、これらは通常、標準的な固定長コンテキストのアプローチを使用している。Transformer-XLは特に長いコンテキストの制限をターゲットにしている。Longformerや Reformerのような他のモデルも長いシーケンスに対応していますが、スパースアテンションパターンやローカリティセンシティブハッシングのような異なるテクニックを使用しています。

関連性と応用

Transformer-XLの長距離依存関係をモデル化する能力は、さまざまな逐次的タスク、特に自然言語処理において非常に効果的である。

  • 言語モデリング: enwik8や WikiText-103のような文字レベルや単語レベルの言語モデリングベンチマークにおいて、従来のモデルよりも長い文脈を捉えることで、最先端の結果を達成した。この言語構造の理解の向上は、首尾一貫した文脈に関連したテキストを生成するために不可欠です。
  • 長いドキュメントの処理:要約(Text Summarization)、長い記事に対する質問応答、本やコードベース全体の分析など、長いドキュメントを含むタスクは、Transformer-XLの拡張コンテキストウィンドウから大きな恩恵を受ける。例えば、Transformer-XLのモデルは、1章に及ぶ架空の物語を生成したり、大規模なソフトウェアモジュールを作成したりすることができます(Text Generation)。
  • 強化学習:その記憶能力の向上は、長期的な計画を必要とする強化学習タスクにも応用されている。

Transformer-XLは主にNLPで知られているが、長いシーケンスを効率的に扱う原理は機械学習(ML)全体に関連しており、時系列解析のアーキテクチャや、ビデオデータを扱うコンピュータビジョン(CV)の側面にも影響を与える可能性がある。例えば、Transformers自体が、画像解析で使用されるVision Transformers(ViT)に影響を与えた。例えば Hugging Faceのようなプラットフォームは、実装や事前に訓練されたモデルをホストしており、研究やアプリケーション開発を促進している。論文「Transformer-XL:Attentive Language Models Beyond a Fixed-Length Context"(固定長のコンテキストを超えた注意深い言語モデル)。このような高度なアーキテクチャを理解することは、Ultralytics HUBのようなプラットフォームで管理・展開されるものを含め、様々なドメインにわたるモデルの開発と微調整に役立ちます。

すべて読む