AIにおけるセルフアテンションのパワーをご覧ください。コンテキストを認識した精度で、NLP、コンピュータビジョン、音声認識に革命をもたらします。
自己注意(Self-Attention)は、モデルが単一の入力シーケンス内の異なる要素の重要度を評価できるようにするメカニズムです。入力のすべての部分を平等に扱うのではなく、特定の要素を処理する際に、モデルが最も関連性の高い部分を選択的に重視できるようにします。この機能は、コンテキスト、長距離依存性、およびデータ内の関係を理解するために不可欠であり、多くの最新の人工知能(AI)アーキテクチャ、特にTransformerの基盤を形成しています。これは、画期的な論文「Attention Is All You Need」で紹介され、自然言語処理(NLP)の分野に革命をもたらしました。
自己注意は、本質的に、現在処理されている要素に関連して、入力シーケンス内の他のすべての要素に「注意スコア」を割り当てることによって動作します。これは、各入力要素に対して、クエリ(Q)、キー(K)、および値(V)の3つのベクトルを作成することによって実現されます。
特定のクエリについて、このメカニズムは、シーケンス内のすべてのキーとの類似性を計算します。これらの類似性スコアは、重みに変換され(多くの場合、softmax関数を使用)、各要素の値にどれだけの焦点を当てるかを決定します。クエリの最終的な出力は、すべての値の加重和であり、シーケンス全体からのコンテキストで強化されたその要素の新しい表現を作成します。このプロセスは、大規模言語モデル(LLM)の動作方法の重要な部分です。このQ-K-Vプロセスの優れた視覚的な説明は、Jay Alammarのブログなどのリソースにあります。
自己注意(Self-attention)は、注意メカニズムの特定のタイプです。主な違いは、クエリ、キー、および値ベクトルのソースです。
自己注意は、テキストの要約や翻訳などのタスクのためにNLPで最初に普及しましたが、コンピュータビジョン(CV)でも非常に効果的であることが証明されています。
研究は、より高い計算効率(FlashAttentionやスパースアテンションのバリアントなどの手法)と、より幅広い適用性を目指して、自己注意メカニズムを改良し続けています。AIモデルの複雑さが増すにつれて、自己注意は、ロボティクスのような特殊なAIアプリケーションから、汎用人工知能(AGI)の追求まで、あらゆる分野で進歩を推進する、基礎となるテクノロジーであり続けると予想されます。Ultralytics HUBのようなツールやプラットフォームは、トレーニングを促進し、これらの高度な技術を組み込んだモデルのデプロイメントを促進します。これらは多くの場合、Hugging Faceのようなリポジトリから入手でき、PyTorchやTensorFlowのようなフレームワークで開発されています。