YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

モデルアンサンブル

モデルアンサンブルがUltralytics YOLO26のような複数のアーキテクチャを組み合わせて精度と堅牢性を向上させる方法を知りましょう。主要な技術と実装のヒントを学びましょう。

A モデルアンサンブルは、複数の個々のモデルからの予測を組み合わせて、単一のモデルだけでは達成できないよりも、しばしばより正確で堅牢な最終出力を生成する機械学習における戦略的アプローチです。一人の個人よりも優れた決定に達するために議論する専門家委員会のように、モデルアンサンブルは多様なアーキテクチャの強みを活用してエラーを軽減します。この手法は、複雑なタスクのパフォーマンスを向上させ、過学習のリスクを低減し、統計モデリングに見られる固有のバイアス-バリアンスのトレードオフに対処するために広く使用されています。

アンサンブルのメカニズム

モデルアンサンブルの核となる原則は「多様性」です。「ベース学習器」または「弱学習器」と呼ばれる複数のモデルを、学習データの異なるサブセットや異なるアルゴリズムを使用して学習させることで、アンサンブルは、あるモデルによって生じたエラーが他のモデルによって修正される可能性が高いことを保証します。ディープラーニングの文脈では、これは推論中に複数のニューラルネットワークを並行して実行することを含みます。

これらの予測を組み合わせる一般的な方法には、以下が含まれます:

  • Voting: 画像分類で使用され、複数のモデルの過半数によって選択されたクラスが最終的な予測となります。
  • 平均化: 回帰タスクでよく使用され、数値出力を平均化してノイズを平滑化します。
  • 重み付き融合: object detectionにおいて、Weighted Box Fusion (WBF) のような技術は、confidenceスコアに基づいて異なる検出器からのバウンディングボックスをマージします。

実際のアプリケーション

モデルアンサンブルは、精度の最大化が最重要であり、計算リソースが複数のモデルの実行を許容するような、リスクの高い環境において不可欠です。

  1. 医療診断: 医用画像解析において、診断を見落とすことは重大な結果を招く可能性があります。放射線科医は、標準的な畳み込みニューラルネットワーク (CNN)Vision Transformer (ViT)を組み合わせたアンサンブルをよく使用します。CNNは局所的なテクスチャ解析に優れ、ViTはグローバルなコンテキストを捉えるため、システムはどちらかのアーキテクチャ単独よりも高い感度で腫瘍をdetectできます。
  2. 自動運転: 自動運転車の知覚システムはフェイルセーフでなければなりません。エンジニアは、YOLO26のリアルタイム速度とRT-DETRのTransformerベースの精度を融合するなど、複数の検出モデルを頻繁に展開します。これにより、特定の照明条件(まぶしさや影など)でいずれかのモデルが苦戦しても、歩行者や障害物がdetectされることが保証されます。

Pythonによるアンサンブル手法の実装

Scikit-learnのようなライブラリを使用して複雑なアンサンブル戦略を構築できますが、複数のモデルをロードし、同じ入力を処理するだけで、コンピュータービジョン用の基本的な推論アンサンブルを作成できます。次の例は、2つの異なるUltralytics YOLOモデルをロードして同じ画像で予測を生成する方法を示しています。

from ultralytics import YOLO

# Load two different model variants to create a diverse ensemble
model_a = YOLO("yolo26n.pt")  # Nano model (Speed focused)
model_b = YOLO("yolo26s.pt")  # Small model (Higher accuracy)

# Perform inference on an image with both models
# In production, results are typically merged programmatically
results_a = model_a("https://ultralytics.com/images/bus.jpg")
results_b = model_b("https://ultralytics.com/images/bus.jpg")

print(f"Model A detected {len(results_a[0].boxes)} objects.")
print(f"Model B detected {len(results_b[0].boxes)} objects.")

モデルアンサンブル対エキスパート混合モデル

標準的なモデルアンサンブルを、現代のLLM(大規模言語モデル)研究でよく見られる用語であるMixture of Experts(MoE)と区別することは有用です。

  • モデルアンサンブル: 通常、すべての入力に対してコレクション内のすべてのモデルをクエリし、結果を集計します。これにより、平均平均精度 (mAP)のようなメトリクスは最大化されますが、推論レイテンシと計算コストが大幅に増加します。これは品質に対する総当たりアプローチです。
  • エキスパートの混合: 「ゲーティングネットワーク」を使用して、現在の入力に最適な特定の「エキスパート」サブモデルにのみデータをルーティングします。これにより、すべてのトークンに対してすべてのパラメータを実行する計算上のペナルティなしに、基盤モデルで大規模なスケーラビリティが可能になります。

利点と考慮事項

モデルアンサンブルを使用する主な利点は、パフォーマンスの向上です。アンサンブルは、単一モデルでは見逃すような複雑なパターンをモデル化できるため、Kaggleコンペティションのようなデータサイエンスの課題で頻繁にリーダーボードを独占します。ただし、これにはコストが伴います。アンサンブルのデプロイには、より多くのメモリと計算能力が必要です。

これらのリソース要件を効率的に管理したいチームにとって、Ultralytics Platformは、さまざまなモデルアーキテクチャをトレーニングし、trackし、ベンチマークするためのツールを提供します。パフォーマンスメトリクスを簡単に比較することで、開発者はアンサンブルによる精度向上が、edge AIシナリオでのデプロイメントに必要な追加インフラストラクチャを正当化するかどうかを判断できます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。