用語集

トランスフォーマーXL

Transformer-XLが、セグメントレベルの再帰や長距離コンテキストの処理といった革新的な技術によって、シーケンスモデリングにどのような革命をもたらしたかをご覧ください。

Transformer-XL（Transformer-ExtraLong）は、オリジナルのTransformerアーキテクチャを大きく進化させたもので、主にシーケンシャルデータの長距離依存関係をより効果的に処理するように設計されている。Google AIとCarnegie Mellon Universityの研究者によって開発されたこのTransformer-XLは、自然言語処理（NLP）やそれ以降のタスクにおいて重要な、非常に長いシーケンスを処理する際に標準的なTransformerに内在するコンテキストの断片化の制限に対処しています。Transformer-XLは、固定長のセグメントを個別に処理するバニラTransformerとは異なり、セグメント間で情報を再利用するメカニズムを導入し、モデルがはるかに長いコンテキストで首尾一貫した理解を構築することを可能にする。

トランスフォーマーXLのコアコンセプト

Transformer-XLは、長いシーケンスを扱う際の標準的なトランスフォーマーの限界を克服するために、2つの重要な革新技術を導入しています：

セグメントレベルの再帰：標準的なトランスフォーマーは、長いシーケンスを固定サイズのセグメントに分割して処理する。しかし、これらのセグメント間では情報が流れないため、コンテキストが断片化する。Transformer-XLは再帰機構を導入し、前のセグメントで計算された隠された状態をキャッシュし、現在のセグメントを処理するときにコンテキストとして再利用する。これにより、セグメントをまたいで情報が伝搬し、1つのセグメントの長さをはるかに超える効果的なコンテキストが作成される。これは、リカレント・ニューラル・ネットワーク（RNN）が状態を維持する方法と概念的に似ているが、Transformerの自己注意フレームワークの中に統合されている。
相対位置エンコーディング：元の Transformer では、シーケンス内のトークンの位置をモデルに知らせるために、絶対位置エンコーディングを使用していました。セグメントレベルの再帰を適用する場合、絶対位置エンコーディングを再利用すると、同じ位置インデックスが異なるセグメントに出現することになり、曖昧さが生じるという問題がある。Transformer-XL では、トークンの絶対位置ではなく、トークン間の距離に基づいて位置を定義する相対位置エンコーディングを採用しています。これにより、異なるセグメント間で位置情報の一貫性が保たれ、推論中にシーケンスの長さが変わっても、モデルがうまく汎化できるようになります。

トランスフォーマーXLの仕組み

学習と推論の間、Transformer-XL は入力シーケンスをセグメントごとに処理する。それぞれの新しいセグメントに対して、そのセグメント内のトークンに基づくだけでなく、前のセグメントからキャッシュされた隠された状態も使用して、アテンションスコアを計算する。このキャッシュされた情報は、過去の文脈を提供する。相対的な位置エンコーディングを使用することで、キャッシュされた前のセグメントのトークンにアテンションする場合でも、アテンションメカニズムがトークンの相対的な位置を正しく解釈することができる。このアプローチは、標準的なトランスフォーマーでシーケンス全体を一度に処理するよりも計算効率を維持しながら、モデルが捕捉できる依存関係の長さの最大値を大幅に増加させます。この方法は、長い係り受けに対する勾配の消失のような問題を防ぐのに役立ちます。

トランスフォーマーXLと標準トランスフォーマーおよび関連モデルとの比較

主な違いは、シーケンスの長さとコンテキストの扱いにある：

コンテキストの長さ：標準的なTransformerは、セグメントサイズによって決まる固定された最大コンテキスト長を持つ。Transformer-XLは、再帰メカニズムにより、潜在的に数千トークンの長さの依存関係をキャプチャすることができます。
計算：Transformer-XLは、前のセグメントの計算が再利用されるため、長いシーケンスの評価において、標準的なTransformerよりも大幅に高速化できる。
メモリ：隠された状態をキャッシュすることは、追加のメモリを必要とするが、シーケンスの以前の部分の表現を再計算することを避けることができる。
関連モデル： BERTや GPT（Generative Pre-trained Transformer）のようなモデルもTransformerアーキテクチャをベースにしているが、これらは通常、標準的な固定長コンテキストのアプローチを使用している。Transformer-XLは特に長いコンテキストの制限をターゲットにしている。Longformerや Reformerのような他のモデルも長いシーケンスに対応していますが、スパースアテンションパターンやローカリティセンシティブハッシングのような異なるテクニックを使用しています。

トランスフォーマーXL

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

トランスフォーマーXLのコアコンセプト

トランスフォーマーXLの仕組み

トランスフォーマーXLと標準トランスフォーマーおよび関連モデルとの比較

関連性と応用

ブログをもっと読む

Ultralytics コミュニティに参加する

トランスフォーマーXL

Ultralytics HUB でを使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

トランスフォーマーXLのコアコンセプト

トランスフォーマーXLの仕組み

トランスフォーマーXLと標準トランスフォーマーおよび関連モデルとの比較

関連性と応用

ブログをもっと読む

Ultralytics コミュニティに参加する

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。