Yolo 深圳
深セン
今すぐ参加
用語集

Transformer-XL

Transformer-XLが、segment再帰や長距離コンテキストの処理といった革新的な技術によって、シーケンスモデリングにどのような革命をもたらしたかをご覧ください。

Transformer-XL(トランスフォーマー・エクストラ・ロング)は、次のような問題を解決するために設計された洗練されたニューラルネットワーク・アーキテクチャである。 ニューラル・ネットワーク・アーキテクチャーである。 人工知能(AI)における最も根強い課題のひとつである 人工知能 一定の長さを超えるデータシーケンスの処理である。開発したのは Google AIと カーネギーメロン大学の研究者たちによって開発された。 このアーキテクチャは新しい再帰メカニズムを導入することで を改良したものである。この革新的な技術により、モデルは異なるデータセグメントにまたがって情報を保持することができる。 データの異なるセグメントにまたがって情報を保持することができる。 コンテクスト・ウィンドウを大幅に拡大する。 通常、長い入力の処理に伴う膨大な計算オーバヘッドを伴わずに。

シーケンスモデリングの改善

Transformer-XLの重要性を理解するためには、その前任者たちの限界に目を向けることが役立つ。標準 トランスフォーマーは、固定サイズのチャンク(セグメント)で独立してデータを処理する。これは「コンテキストの断片化」につながる。 断片化 "につながり、あるsegment 次のセグメントに移ったとたん、モデルは情報を忘れてしまう。 Transformer-XLは、segment再帰を組み込むことで、この問題を克服している。 リカレント・ニューラル・ネットワーク(RNN)から借用した概念だが、並列化可能なフレームワークの中で適用されている。 Transformerの並列化可能なフレームワークの中で適用される。

このアーキテクチャは、主に2つの技術的貢献に依存している:

  • セグメントレベルの再帰:モデルは前のセグメントの隠された状態(メモリ)をキャッシュし、それを現在のsegment 拡張コンテキストとして再利用する。 現在のsegment拡張コンテキストとして再利用する。これにより、情報が継続的に ディープ・ラーニング・レイヤーを継続的に情報が流れるようになる。 標準的なTransformerの何百倍も長い依存関係をモデル化することができる。
  • 相対位置エンコーディング:標準的なモデルでは、トークンには絶対座標が割り当てられる(例:位置1、位置2)、 のように)。しかし、メモリセグメントを再利用する場合、絶対座標では混乱が生じます。 新しいsegment 最初のトークンは、古いセグメントの最初のトークンと同じに見えるからです)。Transformer-XLは次の方法でこれを解決します。 にトークン間の相対距離をエンコードすることで、この問題を解決している。 アテンションメカニズムに組み込むことで、この問題を解決しています。 がsegment 境界に関係なく順序を理解できるようにします。

実際のアプリケーション

長期記憶を維持する能力により、Transformer-XLは広範な文脈を必要とする作業で非常に重宝される。

  • 長文テキスト生成:自然言語処理(NLP)において 自然言語処理(NLP)では、物語の一貫性を維持することは難しい。Transformer-XLが得意とするのは 小説や脚本を生成するような 小説や脚本を生成するような創造的な文章を生成するのに優れています。 第10章では論理的な決定をしなければならない。
  • 金融時系列分析:金融市場は、数ヶ月前からの過去のトレンドが現在の価格に影響を与える、長いデータの連続として機能する。 ヶ月前の過去のトレンドが現在の価格に影響を与えます。Transformer-XLは 時系列分析と 予測モデリングに使用されます。 Transformer-XLは、時系列分析および予測モデリングに使用されます。 ウィンドウを使用します。
  • ゲノム配列解析:バイオインフォマティクスでは、DNA鎖は事実上非常に長い配列である。 文字列である。研究者は、Transformer-XLのようなアーキテクチャを使って、遺伝子配列を解析し、パターン認識や パターン認識と 医学研究や創薬に役立っている。

実施コンセプト

Ultralytics 主に次のようなモデルでコンピュータ・ビジョン(CV)に焦点を当てている。 コンピュータビジョン(CV)に焦点を当てています。 YOLO11のキャッシュメカニズムを理解することは Transformer-XLのキャッシュメカニズムを理解することは、高度なMLエンジニアリングに役立ちます。以下の PyTorchのスニペットは、コンテキストを保持するためにフォワードパスの間に 「memory "tensor 渡すという概念を示しています。

import torch


def forward_pass_with_memory(input_segment, memory=None):
    """Conceptual demonstration of passing memory (cached states) simulating the Transformer-XL recurrence mechanism.
    """
    # If memory exists from the previous segment, concatenate it
    if memory is not None:
        # Combine memory with current input along the sequence dimension
        context = torch.cat([memory, input_segment], dim=1)
    else:
        context = input_segment

    # Simulation of processing (in a real model, this goes through layers)
    output = context * 0.5  # Dummy operation

    # Detach current output to create memory for the NEXT segment
    # This prevents gradient backpropagation into the deep history
    new_memory = output.detach()

    return output, new_memory


# Run a dummy example
segment1 = torch.randn(1, 10)  # Batch size 1, sequence length 10
output1, mems = forward_pass_with_memory(segment1)
print(f"Memory cached shape: {mems.shape}")

Transformer-XLと関連アーキテクチャの比較

Transformer-XLを類似の用語と区別することは、その特定の使用例を明確にするのに役立つ:

  • 標準変圧器標準モデル 標準的なモデルは、segment ごとに状態をリセットする、 512トークン)に制限される。Transformer-XLは、理論的には無限のルックバックコンテキストを可能にするために、メモリーを前方に運ぶ、 メモリリソースによってのみ制限される。
  • BERT BERT は以下のために設計されています。 自然言語理解(NLU) 双方向の注意(過去と未来の単語を同時に見る)を使用した自然言語理解(NLU)用に設計されているが、生成には適していない。 Transformer-XLは自己回帰モデルであり、データを逐次的に生成するため、コンテンツの作成に適している。 コンテンツの作成に適している。
  • ロングフォーマーロングフォーマーは スパース・アテンション・パターン(一度に数語しか見ない)を使うことで、計算コストを削減する。 コストを削減する。これに対し、Transformer-XLは再帰を用いる。Longformerは多くの場合、1つの膨大な文書を一度に読むのに適している。 一方、Transformer-XLは、データをストリーミングしたり、長いシーケンスをステップ・バイ・ステップで生成したりするのに優れている。

シーケンシャルなデータを扱う研究者や開発者にとって Transformer-XLを研究することは、効率的なメモリ管理に関する深い洞察を与えてくれる。 の効率的なメモリ管理について 大規模言語モデル(LLM)における効率的なメモリ管理について、より深い洞察を得ることができる。効率的な メモリの効率的な使用は、GPUを使用してエッジ・デバイスに展開するためのビジョン・モデルの最適化にも適用される原則です。 GPUを使用しています。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加