Mixture of Experts(MoE)をご覧ください。NLP、ビジョン、ロボティクスなどのスケーラブルで効率的なモデルを可能にする画期的なAIアーキテクチャです。
Mixture of Experts(MoE)は、専門化されたサブモデル(「エキスパート」と呼ばれる)間で問題を分割することにより、モデルがより効率的に学習できるようにするニューラルネットワーク(NN)アーキテクチャです。単一のモノリシックなモデルがすべての入力を処理する代わりに、MoEアーキテクチャは「ゲーティングネットワーク」を使用して、各入力を最も関連性の高いエキスパートに動的にルーティングします。このアプローチは、特定のタスクに優れている専門家チームが、単一のジェネラリストよりも複雑な問題を集合的に解決できるという考え方に触発されています。この条件付き計算により、MoEモデルは膨大な数のパラメータにスケールできますが、モデルのごく一部しか特定の入力に使用されないため、推論の計算コストを管理可能な状態に保つことができます。
MoEアーキテクチャは、主に次の2つのコンポーネントで構成されています。
エキスパートネットワーク: これらは、多くの場合同一のアーキテクチャを持つ複数の小さなニューラルネットワークであり、データのさまざまな部分のスペシャリストになるようにトレーニングされています。たとえば、自然言語処理(NLP)のモデルでは、あるエキスパートが英語からフランス語への翻訳を専門とし、別のエキスパートがPythonコードの生成に熟練している場合があります。各エキスパートは、より大きな深層学習システムのコンポーネントです。
Gating Network: ゲーティングネットワークは、交通整理やルーターとして機能する小規模なニューラルネットワークです。入力データを受け取り、どのエキスパート、またはエキスパートの組み合わせがその処理に最適かを判断します。ゲーティングネットワークは各エキスパートに対する確率を出力し、それに基づいて、入力処理のために1つまたは少数のエキスパートを選択的にアクティブ化します。ネットワークのサブセットのみをアクティブ化するこの手法は、スパース活性化と呼ばれることが多く、Googleの「Outrageously Large Neural Networks」のような影響力のある論文で詳しく解説されている中心的な概念です。
トレーニングプロセス中、エキスパートネットワークとゲーティングネットワークの両方が、バックプロパゲーションを使用して同時にトレーニングされます。システムは、エキスパート内でタスクを解決する方法だけでなく、ゲーティングネットワークを介して入力を効果的にルーティングする方法も学習します。
Mixture of Experts(MoE)は、モデルアンサンブルと比較されることが多いですが、動作原理が根本的に異なります。
MoEアーキテクチャは、特にNLPにおいて、最先端モデルをスケールアップする上で特に重要になっています。
MoEモデルを効果的に実装するには、エキスパート間での負荷分散(一部のエキスパートが過剰または過小に利用されるのを防ぐ)、分散学習環境における通信オーバーヘッドの管理(PyTorchやTensorFlowのようなフレームワークで見られるように)、トレーニングプロセスの複雑さの増大など、課題が伴います。モデルのデプロイオプションの慎重な検討と、Ultralytics HUBのようなプラットフォームを使用した管理も必要です。