複雑なコンピュータビジョンタスクにおける正確な物体検出のための精度を重視したソリューションです。
二段階物体検出器は、特に複雑なシーンにおいて、その精度の高さで知られる物体検出アーキテクチャのクラスである。これらの検出器と異なり、これらの検出器は物体検出タスクを2つの異なるステップに分解する:まず、物体が入っている可能性のある画像内の領域を特定し(領域提案)、次に、提案された領域内の物体を分類し、バウンディングボックスを用いてその位置を絞り込む。この方法論的アプローチは詳細な分析を可能にするが、他の方法と比較して計算速度が犠牲になることが多い。これらのモデルは、コンピュータビジョン(CV)の進化の礎となっている。
2段階検出器の動作は逐次的なパイプラインを含み、通常、特徴抽出には ディープニューラルネットワーク(NN)、特に畳み込みニューラルネットワーク(CNN)を活用する。
二段式検出器の主な特徴は以下の通りである:
主な違いは動作パイプラインにある。例えば Ultralytics YOLOファミリー(以下のようなモデルを含む YOLO11や YOLOv8やSSD(Single Shot MultiBox Detector)のようなモデルを含む)は、ネットワークを介した1回のフォワードパスで、全画像からバウンディングボックスとクラス確率を直接予測する。これらは物体検出を回帰問題として扱う。この統一されたアプローチにより、速度面で大きな利点があり、リアルタイムアプリケーションに適している。しかし、歴史的には、特に小さな物体に対して、2段階検出器の精度に匹敵する課題を抱えていました。詳細については、さまざまな物体検出モデルの比較をご覧ください。
2段式検出器の進化には、いくつかの有力なモデルがある:
2段検出器は精度が高いため、精度が最も重要な場面で威力を発揮する:
これらのモデルのトレーニングには通常、COCOデータセットのような大規模なラベル付きデータセットと慎重なチューニングが必要です。Ultralytics 、モデルのトレーニングとパフォーマンスメトリクスの理解のためのリソースを提供します。Ultralytics 、Ultralytics YOLOような効率的な1段階モデルに焦点を当てていますが、2段階検出器を理解することは、物体検出の広い分野での貴重なコンテキストを提供します。