用語集

Transformer

TransformerアーキテクチャがAIに革命をもたらし、自然言語処理（NLP）、コンピュータビジョン、高度な機械学習タスクにおけるブレークスルーをどのように強化するかをご覧ください。

Transformerは、現代の人工知能（AI）、特に自然言語処理（NLP）、そして最近ではコンピュータビジョン（CV）の基礎となった革新的なニューラルネットワークアーキテクチャです。2017年のGoogleの研究者による論文「Attention Is All You Need」で紹介されたその主要なイノベーションは、モデルが入力シーケンスのさまざまな単語または部分の重要性を評価できる自己注意メカニズムです。これにより、以前のアーキテクチャよりも長距離の依存関係とコンテキスト関係をより効果的にキャプチャできます。この設計により、大規模な並列化も可能になり、大規模なデータセットでより大きなモデルをトレーニングできるようになり、大規模言語モデル（LLM）の台頭につながりました。

Transformerの仕組み

リカレントニューラルネットワーク（RNN）のようなシーケンシャルモデルとは異なり、Transformerはデータシーケンス全体を一度に処理します。基本的な考え方は、すべての要素を並行して処理することで、GPUのような最新のハードウェアでのトレーニングを大幅に高速化することです。

再帰なしでシーケンスの順序を理解するために、Transformerは位置エンコーディングと呼ばれる手法を使用します。これは、各要素（たとえば、文中の単語）の位置に関する情報を埋め込みに追加します。次に、自己注意レイヤーがこれらの埋め込みを処理し、すべての要素がシーケンス内の他のすべての要素を「見て」、その意味を理解するために最も関連性の高い要素を判断できるようにします。このグローバルなコンテキスト認識は、複雑なタスクにとって大きな利点です。PyTorchやTensorFlowのようなフレームワークは、Transformerベースのモデルを構築するための広範なサポートを提供します。

Transformerの応用

Transformer（変換器）の影響は多岐にわたり、言語タスクとビジョンタスクの両方で進歩を推進しています。

言語翻訳と生成: Google翻訳のようなサービスは、高品質の機械翻訳のためにTransformerベースのモデルを使用しています。このモデルは、ソース文全体を考慮して、より流暢で正確な翻訳を生成できます。同様に、GPT-4のようなモデルは、コンテキストを理解して一貫性のある段落を作成したり、記事を作成したり、高度なチャットボットを強化したりすることで、テキスト生成に優れています。
コンピュータビジョン: Vision Transformer（ViT）は、画像ベースのタスクのためにアーキテクチャを適応させます。画像をパッチのシーケンスとして扱い、自己注意を使用してそれらの間の関係をモデル化します。このアプローチは、物体検出のためにRT-DETRのようなモデルで使用されており、シーンのグローバルコンテキストを理解することが、特に混雑した環境で、オブジェクトをより正確に識別するのに役立ちます。アーキテクチャの違いを理解するために、RT-DETRとYOLOv8の比較をご覧ください。

Transformerと他のアーキテクチャの比較

Transformersを他の一般的なニューラルネットワークアーキテクチャと区別すると役立ちます。

Transformers vs. RNN： RNNはデータを逐次的に処理するため、本質的に遅く、勾配消失問題の影響を受けやすく、長いシーケンスで以前の情報を忘れてしまいます。Transformersは、並列処理と自己注意によってこれを克服し、長距離の依存関係をはるかに効果的に捉えます。
Transformers vs. CNN： 畳み込みニューラルネットワーク（CNN）は、畳み込みフィルタを使用してピクセルのようなグリッド状のデータ内のローカルパターンを識別するため、ビジョンタスクに非常に効率的です。これらは、Ultralytics YOLOファミリーのようなモデルの基盤です。対照的に、Transformersはグローバルな関係を捉えますが、多くの場合、より多くのデータと計算リソースが必要です。CNN バックボーンとTransformerレイヤーを組み合わせたハイブリッドモデルは、両方の長所を得ることを目指しています。

効率的なTransformerのバリアント

元のTransformerのフルセルフアテンションの計算コストは、シーケンス長とともに二次関数的に増加するため、非常に長いシーケンスでは困難になります。これにより、より効率的なバリアントの開発につながりました。

Longformer: 計算の複雑さを軽減するために、特定トークンに対するグローバルアテンションと組み合わせたスライディングウィンドウアテンションメカニズムを使用します。
Reformer: 局所性鋭敏型ハッシュなどの手法を採用して、完全な注意を近似し、メモリ効率を高めています。
Transformer-XL: モデルが固定長を超えた依存関係を学習できるようにする再帰メカニズムを導入します。これは、自己回帰言語モデリングに特に役立ちます。

これらの進歩により、Transformerの新しい問題への適用性が拡大し続けています。Hugging FaceやUltralytics HUBのようなツールとプラットフォームにより、開発者はこれらの強力なモデルにアクセスしてデプロイすることが容易になります。

Transformer

Ultralytics YOLOモデルをトレーニングして、業界全体のワークフローを効率化

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOでAIモデルを数秒でトレーニング

Transformerの仕組み

Transformerの応用

Transformerと他のアーキテクチャの比較

効率的なTransformerのバリアント

このカテゴリの関連記事

ExecuTorch統合を使用してUltralytics YOLOモデルを展開する

PyTorchカンファレンス2025におけるウルトラリティクスの主なハイライト

自己教師付き学習による画像のノイズ除去

Ultralyticsコミュニティに参加しませんか？