YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

アンカーボックス

アンカーボックスがどのようにアンカーベースの物体検出、分類、回帰、NMSのための事前分布を可能にし、自律走行や小売業に応用されているかを学ぶ。

アンカーボックスは、多くのアンカーベースのオブジェクト検出モデルにおいて基礎となるコンポーネントであり、特定の高さと幅を持つ参照ボックスの事前定義セットとして機能する。これらのボックスは、画像内のオブジェクトの潜在的な位置とスケールに関するプリオール(推測値)として機能する。モデルは、やみくもに物体を探すのではなく、これらのアンカーを出発点として、実際の物体と一致するように位置とサイズを絞り込むためのオフセットを予測する。このアプローチにより、物体の定位という複雑なタスクが、より管理しやすい回帰問題へと変換され、モデルはゼロからボックスを生成するのではなく、これらのテンプレートを調整するように学習する。

アンカーボックスの仕組み

核となるメカニズムは、画像を様々な位置にアンカーボックスの密なグリッドでタイリングすることである。各位置で、異なるスケールとアスペクト比を持つ複数のアンカーを使用することで、多様な形や大きさの物体を効果的に検出できるようにしている。モデルの学習プロセスでは、まず検出器のバックボーンが入力画像から特徴マップを抽出します。次に、検出ヘッドがこれらの特徴を用いて、各アンカーボックスに対して2つのタスクを実行する:

  • 分類:アンカーボックスが対象オブジェクトを含む確率を予測し、クラスラベルと信頼スコアを割り当てる。
  • 回帰:アンカーボックスをオブジェクトをしっかりと囲む最終的なバウンディングボックスに変換するために必要な正確な調整(またはオフセット)を計算します。

このモデルは、Intersection over Union (IoU)のようなメトリクスを使用し、学習中にどのアンカーボックスがグラウンドトゥルースのオブジェクトに最もマッチするかを決定する。予測後、NMS(Non-Maximum Suppression)と呼ばれる後処理ステップが適用され、同じオブジェクトに対する冗長なボックスや重複するボックスが除去される。

アンカーボックスと他のコンセプトの比較

アンカーボックスは、コンピュータビジョンにおける関連用語と区別することが重要である:

  • バウンディングボックス:アンカーボックスは、検出プロセスで使用される事前定義されたテンプレートであり、バウンディングボックスは、検出されたオブジェクトの位置を正確に特定する最終的な洗練された出力です。
  • アンカー・フリーの検出器 YOLOv5や Faster R-CNNファミリーのようなアンカーベースのモデルは、これらのプリセットに依存していますが、最新のアーキテクチャは、アンカーフリー検出器へとますますシフトしています。Ultralytics YOLO11のようなモデルは、キーポイントまたは中心を特定することによって、オブジェクトの位置を直接予測します。これは、モデル設計を簡素化し、型にはまらない形状のオブジェクトのパフォーマンスを向上させます。YOLO11のアンカーフリー設計の利点については、こちらをご覧ください。

実際のアプリケーション

アンカーボックスの構造化されたアプローチは、オブジェクトの形状やサイズが予測可能なシナリオで効果を発揮する。

  1. 自律走行自動車産業向けのソリューションでは、アンカーベースの検出器が自動車、歩行者、交通標識の識別に優れています。これらの物体のアスペクト比が比較的一定しているため、事前に定義されたアンカーとうまく整合し、NVIDIAや テスラなどの企業が開発したシステムで信頼性の高い検出を可能にしています。
  2. リテール・アナリティクスAIを活用した在庫管理のために、これらのモデルは効率的に棚をスキャンして商品を数えることができる。パッケージ商品はサイズや形状が均一であるため、アンカーベースのアプローチに最適で、在庫監視の自動化や手作業の軽減に役立ちます。

これらのモデルは通常、PyTorchや TensorFlowなどの強力なディープラーニングフレームワークを使用して開発される。継続的な学習のために、DeepLearning.AIのようなプラットフォームは、コンピュータビジョンの基礎に関する包括的なコースを提供しています。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました