アンカーボックスがどのようにアンカーベースの物体検出、分類、回帰、NMSのための事前分布を可能にし、自律走行や小売業に応用されているかを学ぶ。
アンカーボックスは、多くのアンカーベースのオブジェクト検出モデルにおいて基礎となるコンポーネントであり、特定の高さと幅を持つ参照ボックスの事前定義セットとして機能する。これらのボックスは、画像内のオブジェクトの潜在的な位置とスケールに関するプリオール(推測値)として機能する。モデルは、やみくもに物体を探すのではなく、これらのアンカーを出発点として、実際の物体と一致するように位置とサイズを絞り込むためのオフセットを予測する。このアプローチにより、物体の定位という複雑なタスクが、より管理しやすい回帰問題へと変換され、モデルはゼロからボックスを生成するのではなく、これらのテンプレートを調整するように学習する。
核となるメカニズムは、画像を様々な位置にアンカーボックスの密なグリッドでタイリングすることである。各位置で、異なるスケールとアスペクト比を持つ複数のアンカーを使用することで、多様な形や大きさの物体を効果的に検出できるようにしている。モデルの学習プロセスでは、まず検出器のバックボーンが入力画像から特徴マップを抽出します。次に、検出ヘッドがこれらの特徴を用いて、各アンカーボックスに対して2つのタスクを実行する:
このモデルは、Intersection over Union (IoU)のようなメトリクスを使用し、学習中にどのアンカーボックスがグラウンドトゥルースのオブジェクトに最もマッチするかを決定する。予測後、NMS(Non-Maximum Suppression)と呼ばれる後処理ステップが適用され、同じオブジェクトに対する冗長なボックスや重複するボックスが除去される。
アンカーボックスは、コンピュータビジョンにおける関連用語と区別することが重要である:
アンカーボックスの構造化されたアプローチは、オブジェクトの形状やサイズが予測可能なシナリオで効果を発揮する。
これらのモデルは通常、PyTorchや TensorFlowなどの強力なディープラーニングフレームワークを使用して開発される。継続的な学習のために、DeepLearning.AIのようなプラットフォームは、コンピュータビジョンの基礎に関する包括的なコースを提供しています。