YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

自己注意機構(Self-Attention)

AIにおけるセルフアテンションのパワーをご覧ください。コンテキストを認識した精度で、NLP、コンピュータビジョン、音声認識に革命をもたらします。

自己注意(Self-Attention)は、モデルが単一の入力シーケンス内の異なる要素の重要度を評価できるようにするメカニズムです。入力のすべての部分を平等に扱うのではなく、特定の要素を処理する際に、モデルが最も関連性の高い部分を選択的に重視できるようにします。この機能は、コンテキスト、長距離依存性、およびデータ内の関係を理解するために不可欠であり、多くの最新の人工知能(AI)アーキテクチャ、特にTransformerの基盤を形成しています。これは、画期的な論文「Attention Is All You Need」で紹介され、自然言語処理(NLP)の分野に革命をもたらしました。

Self-Attentionの仕組み

自己注意は、本質的に、現在処理されている要素に関連して、入力シーケンス内の他のすべての要素に「注意スコア」を割り当てることによって動作します。これは、各入力要素に対して、クエリ(Q)、キー(K)、および値(V)の3つのベクトルを作成することによって実現されます。

  1. クエリ: コンテキストを「探している」現在の要素を表します。
  2. キー: クエリが関連情報を検索するために比較できるシーケンス内のすべての要素を表します。
  3. 値: 各要素の実際のコンテンツを表し、アテンションスコアに基づいて集計されます。

特定のクエリについて、このメカニズムは、シーケンス内のすべてのキーとの類似性を計算します。これらの類似性スコアは、重みに変換され(多くの場合、softmax関数を使用)、各要素の値にどれだけの焦点を当てるかを決定します。クエリの最終的な出力は、すべての値の加重和であり、シーケンス全体からのコンテキストで強化されたその要素の新しい表現を作成します。このプロセスは、大規模言語モデル(LLM)の動作方法の重要な部分です。このQ-K-Vプロセスの優れた視覚的な説明は、Jay Alammarのブログなどのリソースにあります。

自己注意(Self-Attention) vs. 注意メカニズム

自己注意(Self-attention)は、注意メカニズムの特定のタイプです。主な違いは、クエリ、キー、および値ベクトルのソースです。

  • 自己注意(Self-Attention): 3つのベクトル(Q、K、V)はすべて、同じ入力シーケンスから派生します。これにより、モデルは単一の文または画像内の内部関係を分析できます。
  • General Attention(またはCross-Attention): Queryベクトルがあるシーケンスから来て、KeyベクトルとValueベクトルが別のシーケンスから来る場合があります。これは、機械翻訳のようなsequence-to-sequenceタスクでよく見られます。ここでは、デコーダー(翻訳されたテキストを生成)が、エンコーダーによるソーステキストの表現に注意を払います。

AIとコンピュータビジョンの応用

自己注意は、テキストの要約や翻訳などのタスクのためにNLPで最初に普及しましたが、コンピュータビジョン(CV)でも非常に効果的であることが証明されています。

  • 自然言語処理: 「ロボットは重かったのでレンチを拾い上げた」のような文では、自己注意により、モデルは「それ」を「ロボット」ではなく「レンチ」に正しく関連付けることができます。この理解は、BERTGPT-4のようなモデルにとって不可欠です。
  • コンピュータビジョン: Vision Transformer(ViT)モデルは、自己注意を画像のパッチに適用し、画像分類のようなタスクのために、視覚シーンの異なる部分間の関係を学習できるようにします。一部の物体検出モデルも、特徴マップを洗練し、精度を向上させるために、注意ベースのモジュールを組み込んでいます。YOLO12のような一部のモデルは注意を使用していますが、ほとんどのユースケースでは、堅牢で効率的なUltralytics YOLO11をお勧めします。

今後の方向性

研究は、より高い計算効率(FlashAttentionやスパースアテンションのバリアントなどの手法)と、より幅広い適用性を目指して、自己注意メカニズムを改良し続けています。AIモデルの複雑さが増すにつれて、自己注意は、ロボティクスのような特殊なAIアプリケーションから、汎用人工知能(AGI)の追求まで、あらゆる分野で進歩を推進する、基礎となるテクノロジーであり続けると予想されます。Ultralytics HUBのようなツールやプラットフォームは、トレーニングを促進し、これらの高度な技術を組み込んだモデルのデプロイメントを促進します。これらは多くの場合、Hugging Faceのようなリポジトリから入手でき、PyTorchTensorFlowのようなフレームワークで開発されています。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました