用語集

セルフ・アテンションズ

NLP、コンピュータビジョン、音声認識に革命をもたらし、コンテキストを意識した精度を実現する、AIにおける自己注意力のパワーをご覧ください。

自己注意は、現代の人工知能（AI）において極めて重要なメカニズムであり、特に影響力のある論文「Attention Is All You Need」で紹介されたトランスフォーマー・アーキテクチャにおいて顕著である。これは、モデルが情報を処理する際に、1つの入力シーケンスの異なる部分の重要性を評価することを可能にし、データ自体の文脈や関係性をより深く理解することを可能にする。これは、異なる入力シーケンスと出力シーケンスの関連性に主眼を置いていた以前のアテンション手法とは対照的である。その影響は自然言語処理(NLP)に大きな変革をもたらし、コンピュータビジョン(CV)でもますます重要性を増している。

セルフ・アテンションの仕組み

セルフ・アテンションの核となる考え方は、文脈を考慮しながら情報の特定の部分に集中する人間の能力を模倣することである。例えば、文章を読むとき、単語の意味はしばしばそれを囲む単語に依存する。自己注意は、AIモデルが入力シーケンス内のすべての要素（単語や画像パッチなど）間の関係を評価することを可能にする。これは、シーケンス内の他のすべての要素に対する各要素の相対的な「注意スコア」を計算する。これらのスコアは、特定の要素に対する出力表現を生成する際に、各要素がどの程度の「注意」または「重み」を受けるべきかを決定し、モデルが文脈と長期的な依存関係を理解するために、入力の最も関連性の高い部分に集中できるようにします。このプロセスでは、各入力要素に対してクエリ、キー、値の表現を作成します。 PyTorchまたは TensorFlow.

主なメリット

自己アテンションは、リカレント・ニューラル・ネットワーク（RNN）や畳み込みニューラルネットワーク（CNN）の一部のような古いシーケンス処理技術に対して、いくつかの利点を提供する：

長距離の依存関係を捉える：RNNで一般的な消失勾配などの制約を克服し、シーケンス内の離れた要素を関連付けることに優れている。
並列化：すべての要素のペア間の注目スコアを同時に計算できるため、GPUのようなハードウェアでの並列処理に非常に適しており、モデル学習を大幅に高速化できる。
解釈可能性：アテンションウェイトを分析することで、モデルの意思決定プロセスに関する洞察を得ることができ、説明可能なAI（XAI）に貢献する。
文脈理解の向上：すべての入力パーツの関連性を重み付けすることで、モデルはコンテキストをより豊かに理解できるようになり、推論中の複雑なタスクでより優れたパフォーマンスを発揮できるようになる。これは、ImageNetのような大規模なデータセットで評価されるタスクにとって極めて重要です。

自己アテンションと従来のアテンション

どちらも注意メカニズムの傘に入るが、自己注意は従来の注意とは大きく異なる。従来の注意は通常、2つの異なるシーケンスの要素間の注意スコアを計算する。例えば、機械翻訳（例えばEnglish フランス語）の際に、原文の単語と目的文の単語を関連付けるような場合である。しかし、自己注意は、入力の要素を同じ入力の他の要素に関連づけながら、1つのシーケンス内の注意スコアを計算する。この内部的な焦点は、畳み込みによって純粋に局所的な特徴に焦点を当てた方法とは異なり、入力の構造と文脈の深い理解を必要とするタスクにおいて有効である鍵となる。

AIへの応用

自己注意は、さまざまな領域にわたる多くの最先端モデルにとって基本的なものである：

自然言語処理（NLP）： 以下のようなモデルをサポートしている。バートそして GPT-4 などの団体からオープンAI.
- 例1（テキストの要約）：長い文書を要約するとき、自己注意は、モデルが最も顕著な文章を識別し、テキストのさまざまな部分が主要なトピックにどのように関連しているかを理解するのに役立ち、SummarizeBotのようなツールで使用される、より首尾一貫した有益な要約につながります。
- 例2（機械翻訳）：猫がマットの上に座った。It was fluffy"（それはふわふわしていた）と翻訳する場合、自己アテンションによって、モデルは "It "を "the mat"（マット）ではなく、"The cat"（猫）と正しく関連付けることができ、Google 翻訳のようなサービスで見られるように、正確な翻訳が保証される。これは言語モデリングにとって非常に重要である。
コンピュータ・ビジョン のようなアーキテクチャーがある。ヴィジョン・トランスフォーマー（ViT）画像パッチに自己注意を適用する。
- 例1（物体検出）： Ultralytics YOLO12や RT-DETRやRT-DETRのようなモデルは、注意ベースのメカニズムを使用して、関連する画像領域に焦点を当て、乱雑なシーンでも物体の検出精度を向上させます。これは、歩行者や他の車両を識別するための自律走行などのアプリケーションに役立ちます。技術的な比較は、性能の違いを強調している。
- 例2（画像分類）：複数のオブジェクトを含む画像を分類する場合、自己注意により、モデルは異なるオブジェクトや特徴の重要性を重み付けし、全体的なシーンカテゴリを決定することができる（例えば、アフリカの野生動物データセットから野生動物の写真に写っている動物に注目する）。
その他の分野 画像分割、医療画像解析、音声認識などにも応用されている。

今後の方向性

研究は、より高い計算効率（例えば、FlashAttentionやスパースアテンションバリアントのような手法）と幅広い適用性を目指して、自己注意メカニズムを改良し続けている。AIモデルが複雑化するにつれて、自己注意は、ロボット工学のような特殊なAIアプリケーションから人工一般知能（AGI）の追求に至る分野での進歩を推進する、基幹技術であり続けると予想されます。Ultralytics HUBのようなツールやプラットフォームは、これらの高度な技術を組み込んだモデルのトレーニングやデプロイを容易にします。 Hugging Face.

セルフ・アテンションズ

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

セルフ・アテンションの仕組み

主なメリット

自己アテンションと従来のアテンション

AIへの応用

今後の方向性

ブログをもっと読む

Ultralytics コミュニティに参加する

セルフ・アテンションズ

Ultralytics HUB でを使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

セルフ・アテンションの仕組み

主なメリット

自己アテンションと従来のアテンション

AIへの応用

今後の方向性

ブログをもっと読む

Ultralytics コミュニティに参加する

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。