Yolo 深圳
深セン
今すぐ参加
用語集

回転位置埋め込み (RoPE)

ロータリー位置埋め込み(RoPE)が相対位置を符号化することで変圧器を強化する仕組みを探る。大規模言語モデル(LLM)Ultralytics 視覚タスクにおけるその役割を学ぶ。

ロータリー位置埋め込み(RoPE)は、トークン埋め込みに位置情報を注入するために現代のニューラルネットワークアーキテクチャで使用される非常に効果的な手法である。トランスフォーマーのような深層学習モデルでは、入力トークンは順次ではなく同時に処理される。これらのモデルは固有の順序感覚を欠いているため、データの順序を理解するには外部メカニズムが必要となる。 RoPEは、回転行列を用いてトークンの絶対位置を符号化し、相対的な位置依存性を注意機構にシームレスに統合することでこの課題を解決します。これによりモデルは、トークン間の距離に基づく相互関係をより適切に理解できるようになります。

回転位置埋め込みの仕組み

従来の方法がトークン表現に固定の位置ベクトルを加えるのとは異なり、RoPEは多次元空間においてトークンの特徴量に幾何学的回転を適用する。 この回転角度は、 トークンのシーケンス内での位置に正比例します。モデルが2つのトークン間のアテンションスコアを計算する際、 これらの回転の数学的特性により、結果のスコアが両者の相対距離に 自然に依存することが保証されます。この手法により、高度なAIシステムは 過剰なメモリを必要とせずに、はるかに大きな コンテキストウィンドウにわたって堅牢な構造認識を維持できます。

この仕組みを実際に理解するため、 PyTorchフレームワークで tensor RoPEを実装することが多い。以下は、モデル学習時または推論時に、入力特徴量に対して中核となる回転ロジックが適用される様子を示す、簡略化された実行可能なコードスニペットである:

import torch


def apply_rotary_emb(x, cos, sin):
    # A simplified PyTorch demonstration of applying rotary embeddings
    # Splits the feature dimension and rotates the halves
    half_dim = x.shape[-1] // 2
    x1, x2 = x[..., :half_dim], x[..., half_dim:]

    # Rotate the components to encode relative positional information
    rotated_x = torch.cat((-x2, x1), dim=-1)

    # Combine original features with cosine and sine transformations
    return (x * cos) + (rotated_x * sin)


# Example usage with dummy token features and sinusoidal matrices
dummy_features = torch.randn(2, 10, 64)  # (batch_size, sequence_length, features)
cos, sin = torch.randn(2, 10, 64), torch.randn(2, 10, 64)
embedded_features = apply_rotary_emb(dummy_features, cos, sin)

RoPEの実世界での応用

ロータリー埋め込みは、特に高度な自然言語処理(NLP)タスクや最先端のビジョンシステムにおいて、シーケンスモデリングの業界標準となっている。

  1. 大規模言語モデル(LLM):RoPEは、MetaのLLaMAアーキテクチャを含む世界最高水準のテキスト生成システムの基盤となる位置エンコーディング手法です。 MetaのLLaMAアーキテクチャなどです。RoPEを活用することで、これらの大規模言語モデル(LLM)は単一のプロンプトで書籍全体やコードベースを処理でき、訓練時に見られた長さをはるかに超えて一般化される比類のないシーケンス外挿能力を提供します。
  2. ビジョントランスフォーマーと物体検出: コンピュータビジョン分野において、画像パッチから導出される視覚トークンは精密な空間構造化を必要とする。Ultralytics 畳み込みモデルが局所受容野を通じて空間階層を自然に捕捉する一方、ビジョントランスフォーマーのような自己注意機構はRoPEのような2次元拡張を統合することが多い。 これにより、トランスフォーマーベースの 物体検出および インスタンスセグメンテーションパイプラインは、 視覚要素の相対的な位置関係をより良く理解できるようになり、 複雑なシーンにおける精度が向上する。

RoPEと絶対位置埋め込みの区別

RoPEを標準的な絶対位置埋め込みと区別することが重要です。 絶対埋め込みは、シーケンス内の各スロットに固定された独立したベクトルを割り当てます。つまり、モデルは位置5と位置10の関係を個別に学習する必要があります。一方、RoPEは距離の概念をトークン変換に直接組み込みます。この根本的な違いにより、RoPEは長文理解や生成AIワークフローにおいて圧倒的に優れています。これらの場面では、シーケンスの長さが大きく変動するためです。

これらの大規模アーキテクチャの開発と拡張においては、データとインフラを効率的に管理することが極めて重要です。 すべてのエッジ環境におけるデータセットの注釈付け、クラウドトレーニング、デプロイを効率化するため、開発者は Ultralytics 提供する包括的なツールに依存することが多く、 Ultralytics 最先端のコンピュータビジョン研究を実用化する重労働を担います。 RoPEを 微調整のベストプラクティスと組み合わせて活用することで、 現代のAIパイプラインは高い精度と計算上の堅牢性の両方を維持できます。

Ultralytics YOLOパワーアップ

あなたのプロジェクトに高度なAIビジョンを。あなたの目標に合ったライセンスを今すぐ見つけましょう。

ライセンスオプションを見る