Transformer-XLが、セグメントレベルの再帰や長距離コンテキストの処理といった革新的な技術によって、シーケンスモデリングにどのような革命をもたらしたかをご覧ください。
Transformer-XL(Transformer-ExtraLong)は、オリジナルのTransformerアーキテクチャを大きく進化させたもので、主にシーケンシャルデータの長距離依存関係をより効果的に処理するように設計されている。Google AIとCarnegie Mellon Universityの研究者によって開発されたこのTransformer-XLは、自然言語処理(NLP)やそれ以降のタスクにおいて重要な、非常に長いシーケンスを処理する際に標準的なTransformerに内在するコンテキストの断片化の制限に対処しています。Transformer-XLは、固定長のセグメントを個別に処理するバニラTransformerとは異なり、セグメント間で情報を再利用するメカニズムを導入し、モデルがはるかに長いコンテキストで首尾一貫した理解を構築することを可能にする。
Transformer-XLは、長いシーケンスを扱う際の標準的なトランスフォーマーの限界を克服するために、2つの重要な革新技術を導入しています:
学習と推論の間、Transformer-XL は入力シーケンスをセグメントごとに処理する。それぞれの新しいセグメントに対して、そのセグメント内のトークンに基づくだけでなく、前のセグメ ントからキャッシュされた隠された状態も使用して、アテンションスコアを計算する。このキャッシュされた情報は、過去の文脈を提供する。相対的な位置エンコーディングを使用することで、キャッシュされた前のセグ メントのトークンにアテンションする場合でも、アテンションメカニズムがトークンの相対的な位 置を正しく解釈することができる。このアプローチは、標準的なトランスフォーマーでシーケンス全体を一度に処理するよりも計算 効率を維持しながら、モデルが捕捉できる依存関係の長さの最大値を大幅に増加させます。この方法は、長い係り受けに対する勾配の消失のような問題を防ぐのに役立ちます。
主な違いは、シーケンスの長さとコンテキストの扱いにある:
Transformer-XLの長距離依存関係をモデル化する能力は、さまざまな逐次的タスク、特に自然言語処理において非常に効果的である。
Transformer-XLは主にNLPで知られているが、長いシーケンスを効率的に扱う原理は機械学習(ML)全体に関連しており、時系列解析のアーキテクチャや、ビデオデータを扱うコンピュータビジョン(CV)の側面にも影響を与える可能性がある。例えば、Transformers自体が、画像解析で使用されるVision Transformers(ViT)に影響を与えた。例えば Hugging Faceのようなプラットフォームは、実装や事前に訓練されたモデルをホストしており、研究やアプリケーション開発を促進している。論文「Transformer-XL:Attentive Language Models Beyond a Fixed-Length Context"(固定長のコンテキストを超えた注意深い言語モデル)。このような高度なアーキテクチャを理解することは、Ultralytics HUBのようなプラットフォームで管理・展開されるものを含め、様々なドメインにわたるモデルの開発と微調整に役立ちます。