Yolo 深圳
深セン
今すぐ参加
用語集

モデルアンサンブル

Ultralytics のような複数のアーキテクチャを組み合わせて精度と頑健性を向上させる仕組みを解説。主要な技術と実装のコツを学びましょう。

モデルアンサンブルとは、機械学習における戦略的アプローチであり、複数の個別モデルからの予測を組み合わせて最終出力を生成する手法である。これにより、単一のモデルが単独で達成できるよりも、多くの場合、より正確で頑健な結果が得られる。 専門家委員会が単独の個人よりも優れた決定を下すために審議するように、モデルアンサンブルは多様なアーキテクチャの強みを活用して誤差を軽減します。この手法は、複雑なタスクにおける性能向上、過学習リスクの低減、統計的モデリングに内在するバイアス・分散のトレードオフへの対応のために広く利用されています。

アンサンブルの仕組み

モデルアンサンブルの根幹をなす原理は「多様性」である。複数のモデル(しばしば「ベース学習器」または「弱い学習器」と呼ばれる)を、異なる訓練データ部分集合で学習させるか、異なるアルゴリズムを用いて学習させることで、アンサンブルは一つのモデルが犯した誤りが他のモデルによって修正される可能性を高める。深層学習の文脈では、これは推論時に複数のニューラルネットワークを並列に実行することを意味することが多い。

これらの予測を組み合わせる一般的な方法には以下が含まれる:

  • 投票法: 画像分類において使用され、 多数のモデルが選択したクラスが 最終的な予測となる。
  • 平均化:回帰タスクで頻繁に使用され、数値出力を平均化してノイズを平滑化する。
  • 加重融合: 物体検出において、加重ボックス融合(WBF)などの手法は、 信頼度スコアに基づいて異なる検出器からの境界ボックスを統合する。

実際のアプリケーション

モデルアンサンブルは、精度を最大化することが最優先事項であり、計算リソースが複数のモデルを実行することを可能にする、ハイリスクな環境において不可欠である。

  1. 医療診断: 医療画像解析において、診断を見逃すことは深刻な結果を招く可能性がある。放射線科医は、標準的な畳み込みニューラルネットワーク(CNN) とビジョントランスフォーマー(ViT)を組み合わせたアンサンブルモデルを頻繁に利用する。CNNは局所的なテクスチャ解析に優れ、ViTはグローバルな文脈を捉えるため、このシステムはどちらのアーキテクチャ単独よりも高い感度でdetect 。
  2. 自動運転: 自動運転車両の知覚システムは フェイルセーフでなければならない。 エンジニアは頻繁に検出モデルの集合体を展開する——例えば、YOLO26のリアルタイム速度と トランスフォーマーベースの精度を融合させるなど RT-DETRを融合させるなど、複数の検知モデルを組み合わせて運用することが多い。これにより、グレアや影といった特定の照明条件で特定のモデルが苦戦しても、歩行者や障害物が確実に検知される。

Pythonによるアンサンブル手法の実装

複雑なアンサンブル戦略はScikit-learnなどのライブラリを使用して構築できますが、 コンピュータビジョン向けの基本的な推論アンサンブルは、複数のモデルを読み込み同じ入力を処理するだけで作成可能です。 以下の例は、2つの異なるモデルを読み込む方法を示しています Ultralytics YOLO モデルを読み込み、 同じ画像に対して予測を生成する方法を示します。

from ultralytics import YOLO

# Load two different model variants to create a diverse ensemble
model_a = YOLO("yolo26n.pt")  # Nano model (Speed focused)
model_b = YOLO("yolo26s.pt")  # Small model (Higher accuracy)

# Perform inference on an image with both models
# In production, results are typically merged programmatically
results_a = model_a("https://ultralytics.com/images/bus.jpg")
results_b = model_b("https://ultralytics.com/images/bus.jpg")

print(f"Model A detected {len(results_a[0].boxes)} objects.")
print(f"Model B detected {len(results_b[0].boxes)} objects.")

モデルアンサンブル対エキスパート混合モデル

標準モデルアンサンブルと、現代の大型言語モデル(LLM)研究で頻繁に見られる用語である専門家混合モデル(MoE)を区別することは有益である。

  • モデルアンサンブル:通常、コレクション内の全モデルに対し全入力についてクエリを実行し、 結果を集約する。これにより平均精度(mAP)などの指標は最大化されるが、 推論のレイテンシと計算コストが大幅に増加する。品質に対する力技のアプローチである。
  • エキスパート混合モデル:現在の入力に最適な少数の特定「エキスパート」サブモデルのみにデータをルーティングする「ゲートネットワーク」を使用しますこれにより、各トークンに対して全てのパラメータを実行する計算上のペナルティなしに、基盤モデルの膨大なスケーラビリティを実現します。

利点と考慮事項

モデルアンサンブルを使用する主な利点は、性能の向上です。アンサンブルは、Kaggleコンペティションのようなデータサイエンスの課題において頻繁に上位を占めます。なぜなら、単一モデルでは捉えきれない複雑なパターンをモデル化できるからです。しかし、これには代償が伴います:アンサンブルの展開には、より多くのメモリと計算能力が必要となります。

これらのリソース要求を効率的に管理したいチーム向けに、 Ultralytics 、 異なるモデルアーキテクチャのトレーニング、track、ベンチマークを行うツールを提供します。 パフォーマンス指標を容易に比較することで、開発者はアンサンブルによる精度向上が、 エッジAIシナリオでのデプロイに必要な追加インフラを正当化するかどうかを判断できます。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加