YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

Two-Stage物体検出器

2段階オブジェクト検出器のパワーをご覧ください。複雑なコンピュータビジョンタスクにおいて、正確なオブジェクト検出を実現するための、精度に重点を置いたソリューションです。

Two-stage object detector(2段階オブジェクト検出器)は、連続した2段階のプロセスを経て、画像またはビデオ内のオブジェクトを識別および特定するコンピュータビジョンモデルの一種です。この手法は、特にオブジェクトを正確にローカライズする際の高い精度で知られていますが、多くの場合、推論レイテンシが高くなるという代償を伴います。基本的な考え方は、まず関心のある潜在的な領域を特定し、次に有望な領域に対してのみ詳細な分類とローカリゼーションを実行することです。

2段階プロセス

2段階検出器の動作は、明確な連続したフェーズに分割されます。

  1. 領域提案の生成:最初の段階では、モデルは画像をスキャンして、オブジェクトが含まれている可能性が高い候補領域のセット(「関心領域」(RoI)または提案と呼ばれる)を生成します。これは通常、Faster R-CNNアーキテクチャで有名な、Region Proposal Network(RPN)と呼ばれるサブモジュールによって実現されます。この段階の目標は、オブジェクトを分類することではなく、2番目の段階で分析する必要のある場所の数を減らすことだけです。

  2. オブジェクトの分類とバウンディングボックスの改良: 第2段階では、提案された各領域が分類ヘッドと回帰ヘッドに渡されます。分類ヘッドは、RoI内のオブジェクトのクラス(例:「人」、「車」、「犬」)を決定するか、背景として指定します。同時に、回帰ヘッドはバウンディングボックスの座標を改良して、オブジェクトにより正確に適合させます。事前選択された領域のこの集中的な分析により、モデルは高いローカリゼーション精度を実現できます。

Two-Stage検出器 vs. One-Stage検出器

主な違いは、その運用パイプラインにあります。Two-Stage検出器は、ローカリゼーションと分類のタスクを分離しますが、One-Stage物体検出器は、両方のタスクを1回のパスで同時に実行します。

  • Two-Stage Detectors (例: R-CNNファミリー): 精度を優先します。2段階のプロセスにより、潜在的なオブジェクトごとに、より詳細な特徴抽出と洗練が可能になり、多数の小さく重なり合うオブジェクトを含む複雑なシーンで、より優れたパフォーマンスを発揮します。ただし、その複雑さから、計算負荷が高く、処理速度が遅くなります。
  • シングルステージ検出器 (例: Ultralytics YOLO, SSD): 速度と効率を優先します。物体検出を単一の回帰問題として扱うことで、エッジAIデバイスでのアプリケーションに適したリアルタイム推論速度を実現します。最新のシングルステージモデル(YOLO11など)は精度ギャップを大幅に縮めていますが、可能な限り高い精度が要求されるタスクでは、ツーステージ検出器が依然として推奨される場合があります。

主要なアーキテクチャ

Two-Stage Detectorの進化は、いくつかの影響力のあるモデルによって特徴づけられます。

  • R-CNN(領域ベースの畳み込みニューラルネットワーク): 畳み込みニューラルネットワーク(CNN)で領域提案を使用することを最初に提案した先駆的なモデル。Selective Searchと呼ばれる外部アルゴリズムを使用して提案を生成しました。
  • Fast R-CNN: 画像全体を一度CNNで処理し、計算を共有してプロセスを大幅に高速化した改善。
  • Faster R-CNN: Region Proposal Network(RPN)を導入し、領域提案メカニズムをニューラルネットワーク自体に統合して、エンドツーエンドの深層学習ソリューションを実現しました。
  • Mask R-CNN: Faster R-CNNを拡張し、各オブジェクトのピクセルレベルのマスクを出力する3番目のブランチを追加することで、インスタンスセグメンテーションを可能にします。

実際のアプリケーション

Two-Stage Detectorの高い精度は、精度が最も重要なシナリオでその価値を発揮します。

  • 医用画像解析: 医療スキャン(CT、MRI)で小さな腫瘍、病変、またはポリープのような微妙な異常を検出するには、診断を支援するために高い精度が必要です。正確なローカリゼーションは、治療計画にとって重要です。ヘルスケアAIRadiology: Artificial Intelligenceのようなジャーナルでの研究の詳細をご覧ください。関連するタスクについては、脳腫瘍データセットのようなデータセットを調べることができます。
  • 自動運転: 歩行者、自転車、他の車両、および交通標識、特に小さかったり部分的に隠れていたりするものを正確に検出して特定することは、自動運転車の安全システムにとって非常に重要です。Waymoのような企業は、堅牢な知覚システムに大きく依存しています。
  • 詳細なシーン理解: オブジェクトの相互作用の詳細な理解や、正確なカウントを必要とするアプリケーションは、より高い精度から恩恵を受けます。
  • 製造業における品質管理: 複雑なアセンブリにおける小さな欠陥の特定やコンポーネントの配置の検証は、多くの場合、高い精度を必要とします。製造業におけるAIの詳細をご覧ください。

これらのモデルのトレーニングには通常、COCO データセットのような大規模なラベル付きデータセットと、注意深いチューニングが必要です。Ultralytics は、モデルのトレーニングパフォーマンス指標の理解のためのリソースを提供しています。Ultralytics は Ultralytics YOLO のような効率的なシングルステージモデルに焦点を当てていますが、ツーステージ検出器を理解することは、より広範な物体検出の分野において貴重なコンテキストを提供します。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました