用語集

二段式物体検出器

複雑なコンピュータビジョンタスクにおける正確な物体検出のための精度を重視したソリューションです。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

二段階物体検出器は、特に複雑なシーンにおいて、その精度の高さで知られる物体検出アーキテクチャのクラスである。これらの検出器と異なり、これらの検出器は物体検出タスクを2つの異なるステップに分解する:まず、物体が入っている可能性のある画像内の領域を特定し(領域提案)、次に、提案された領域内の物体を分類し、バウンディングボックスを用いてその位置を絞り込む。この方法論的アプローチは詳細な分析を可能にするが、他の方法と比較して計算速度が犠牲になることが多い。これらのモデルは、コンピュータビジョン(CV)の進化の礎となっている。

二段式検出器の仕組み

2段階検出器の動作は逐次的なパイプラインを含み、通常、特徴抽出には ディープニューラルネットワーク(NN)、特に畳み込みニューラルネットワーク(CNN)を活用する。

  1. 第1ステージ領域の提案:最初の段階は、オブジェクトがありそうな候補領域(Region of Interest、ROI)の管理可能なセットを生成することを目的とする。R-CNNのような初期のモデルは、選択的探索のような外部手法を使用していたが、その後の進歩、特にFaster R-CNNアーキテクチャは、この段階を地域提案ネットワーク(RPN)を使用してニューラルネットワーク自体に統合した。RPNはバックボーンネットワークによって生成された特徴マップを効率的にスキャンし、潜在的なオブジェクトの位置とサイズを予測する。
  2. 第2段階:分類と絞り込み:第一段階から提案された領域は第二段階に渡される。各RoIについて、共有された特徴マップから特徴が抽出される(RoIPoolingやRoIAlignのような技術を用いて、様々な領域サイズを扱う)。これらの特徴は、ROI内のオブジェクトの分類(例えば、「車」、「人」、「背景」)と、より正確にオブジェクトにフィットするようにバウンディングボックスの座標を改良する、という2つのタスクを実行する検出ヘッドに供給される。

主な特徴

二段式検出器の主な特徴は以下の通りである:

  • 高い精度:プロポーザル生成と分類・精緻化を分離することで、第2段階では、より少ない有望な領域セットにリソースを集中させることができ、多くの場合、より高いローカライゼーション精度と分類精度をもたらす。小さな物体や混雑したシーンで高い性能を発揮する傾向がある。性能はしばしば平均平均精度(mAP)やIntersection over Union(IoU)のようなメトリクスを用いて測定される。
  • 推論速度の低下:特に、多数の領域プロポーザルを生成し、個別に処理するオーバーヘッドを伴う2つの異なるステージで画像を処理することで、これらの検出器は、1ステージのオブジェクト検出器よりも計算集約的で、一般的に遅くなります。このため、厳密なリアルタイム推論を必要とするアプリケーションでの使用が制限される可能性があります。

段検出器との比較

主な違いは動作パイプラインにある。例えば Ultralytics YOLOファミリー(以下のようなモデルを含む YOLO11YOLOv8SSD(Single Shot MultiBox Detector)のようなモデルを含む)は、ネットワークを介した1回のフォワードパスで、全画像からバウンディングボックスとクラス確率を直接予測する。これらは物体検出を回帰問題として扱う。この統一されたアプローチにより、速度面で大きな利点があり、リアルタイムアプリケーションに適している。しかし、歴史的には、特に小さな物体に対して、2段階検出器の精度に匹敵する課題を抱えていました。詳細については、さまざまな物体検出モデルの比較をご覧ください。

注目のアーキテクチャ

2段式検出器の進化には、いくつかの有力なモデルがある:

  • R-CNN(Regions with CNN features):領域提案とCNN特徴量を組み合わせた先駆的な研究だが、各領域を個別に処理するため時間がかかる。
  • 高速R-CNN:共有畳み込み特徴マップ上でRoIPoolingを使用し、プロポーザル間で計算を共有することで速度を向上。(高速R-CNN論文)
  • R-CNNの高速化:RPNを介して領域提案ステップをネットワークに統合することで、スピードとエレガントさがさらに向上。
  • マスクR-CNN:検出された各オブジェクトのセグメンテーションマスクを予測する分岐を追加することで、インスタンスセグメンテーションを実行するようにFaster R-CNNを拡張。(マスクR-CNN論文)

実世界での応用

2段検出器は精度が高いため、精度が最も重要な場面で威力を発揮する:

  • 医療画像解析医療スキャン(CT、MRI)で小さな腫瘍、病変、ポリープのような微細な異常を検出するには、診断を助ける高い精度が必要です。正確な位置特定は治療計画に不可欠です。Radiologyなどのジャーナルで、ヘルスケアや研究におけるAIの詳細をご覧ください:人工知能 Brain Tumor datasetのようなデータセットを検索して、関連するタスクを調べることができます。
  • 自律走行:歩行者、自転車、他の車両、交通標識(特に小さいものや部分的に隠れているもの)を正確に検知し、位置を特定することは、自動運転車の安全システムにとって極めて重要である。ウェイモのような企業は、堅牢な知覚システムに大きく依存している。
  • 詳細なシーン理解:オブジェクトの相互作用のきめ細かな理解や正確なカウントを必要とするアプリケーションは、より高い精度の恩恵を受けます。
  • 製造における品質管理小さな欠陥を特定したり、複雑なアセンブリの部品配置を確認したりするには、高い精度が要求されることがよくあります。製造業におけるAIについて詳しく知る。

これらのモデルのトレーニングには通常、COCOデータセットのような大規模なラベル付きデータセットと慎重なチューニングが必要です。Ultralytics 、モデルのトレーニングとパフォーマンスメトリクスの理解のためのリソースを提供します。Ultralytics 、Ultralytics YOLOような効率的な1段階モデルに焦点を当てていますが、2段階検出器を理解することは、物体検出の広い分野での貴重なコンテキストを提供します。

すべて読む