アンカーベース検出器が、正確なローカリゼーション、スケール適応性、現実世界の応用により、物体検出にどのような変革をもたらすかを解説します。
アンカーベースの検出器は、物体検出モデルの基礎となるクラスであり、コンピュータビジョンにおいて重要な役割を果たします。これらのモデルは、アンカーボックスと呼ばれる、あらかじめ定義された一連のボックスを使用して、画像内の物体を識別し、位置を特定します。アンカーボックスは、基本的に、さまざまなサイズとアスペクト比を持つテンプレートのグリッドであり、画像全体にタイル状に配置されます。モデルは、これらのアンカーをシフトおよびスケーリングして、物体の正解バウンディングボックスに一致させる方法と、物体の存在を示す信頼度スコアを予測します。このアプローチは、固定されたアンカーを基準とした回帰および分類タスクに変換することで、物体検出の問題を簡素化します。
アンカーベースのアーキテクチャの代表的な例としては、Faster R-CNNなどのR-CNNファミリーや、SSD(Single Shot MultiBox Detector)のような初期のシングルステージ検出器、そして非常に成功したUltralytics YOLOv5を含む多くのYOLOモデルがあります。
アンカーベース検出の基本的な考え方は、事前定義された参照ボックスのセットを開始点として使用することです。モデルの学習プロセス中、検出器は各アンカーボックスに対して2つの主要なタスクを実行することを学習します。
これらの予測は、バックボーンによって抽出された画像特徴を処理した後、モデルの検出ヘッドによって行われます。単一のオブジェクトが複数のアンカーボックスによって検出される可能性があるため、Non-Maximum Suppression (NMS)と呼ばれる後処理ステップを使用して、冗長な検出をフィルタリングし、最適なボックスのみを保持します。これらのモデルのパフォーマンスは、mean Average Precision (mAP)やIntersection over Union (IoU)などの指標を使用して評価されることがよくあります。
近年、アンカーフリー検出器が、一般的な代替手段として登場してきました。アンカーベースのモデルとは異なり、アンカーフリーのアプローチでは、オブジェクトの位置とサイズを直接予測します。多くの場合、キーポイント(オブジェクトの中心や角など)を特定したり、ある点からオブジェクトの境界までの距離を予測したりすることで、事前に定義されたアンカー形状の必要性を排除します。
主な違いは次のとおりです。
YOLOv4のようなアンカーベースの検出器は非常に成功しましたが、Ultralytics YOLO11を含む多くの最新アーキテクチャでは、そのシンプルさと効率の利点を活かすために、アンカーフリー設計が採用されています。YOLO11におけるアンカーフリー検出の利点を調べたり、異なるYOLOモデル間の比較を確認したりできます。
アンカーベースの検出器は、物体が比較的標準的な形状とサイズを持つさまざまなアプリケーションで広く使用されています。
アンカーベースまたはアンカーフリーの物体検出モデルの開発と展開には、PyTorchやTensorFlowのようなフレームワーク、およびOpenCVのようなライブラリの使用が含まれます。Ultralytics HUBなどのプラットフォームは、カスタムモデルのトレーニング、データセットの管理、ソリューションの展開を効率化するワークフローを提供し、さまざまなモデルアーキテクチャをサポートします。さらに学習するために、Papers With Codeのようなリソースには最先端のモデルがリストされており、DeepLearning.AIのようなプラットフォームのコースでは、基礎概念を扱っています。