アンカーベース検出器が、正確なローカリゼーション、スケール適応性、現実世界の応用により、物体検出にどのような変革をもたらすかを解説します。
アンカーに基づく検出器は、コンピュータビジョン(CV)で使用されるモデルの基本的なクラスである。 コンピュータビジョン(CV)で使用される基本的なモデルクラスである。 オブジェクト検出の問題を解決するためにこれらのシステムは として知られる,あらかじめ定義された境界ボックスの集合に依存する。 アンカーボックスは,画像全体に並べられた参照テンプレート を利用する。ネットワークは、ゼロから物体の位置を予測するのではなく、シーン内の物体にぴったり合うように、これらの固定されたアンカーをどれだけ移動させ、拡大縮小させるかを計算する。 を計算する。このアプローチは本質的に ディープラーニング(DL)モデルが学習するための安定した出発点を提供する。 ディープラーニング(DL)モデルが空間階層 階層を学習するための安定した出発点を提供する。
アンカー・ベース検出器のワークフローでは、入力画像上に高密度のアンカー・グリッドを生成する。 異なるスケールとアスペクト比を持つ高密度のグリッドを生成する。画像が モデルのバックボーンを通過する際に、特徴マップが抽出・分析される。 各アンカー位置に対して 検出ヘッドは2つの同時予測を実行する。 予測を行う:
モデルのトレーニング中、アルゴリズムは IoU over Union)と呼ばれるメトリックを使用する。 どのアンカーが既知のオブジェクトと十分に重なるかを判断する。IoU 最も高いアンカーだけが、正サンプルとして扱われる。 として扱われる。この処理によって何千もの候補ボックスが生成されるため、以下のような後処理ステップが必要となる。 ノンマキシマムサプレッション(NMS) 冗長な重複を除去し、最も正確な検出のみを保持するために適用される。
これらのモデルを、最新世代のアンカーなし探知機と区別することは重要である。 アンカーなし検出器と区別することが重要である。アンカー・ベース オリジナルのFaster R-CNNや Ultralytics YOLOv5のようなアンカーベースのシステムは、アンカー 次元に依存し、アンカーを使わないモデルはオブジェクトの中心やキーポイントを直接予測する。
新しい手法の台頭にもかかわらず、アンカーベースのディテクターは、オブジェクトの形状が一貫して予測可能な多くの確立されたパイプラインで、依然として普及している。 形状が一貫しており、予測可能である。
を使って簡単にオブジェクト検出を試すことができます。 ultralytics パッケージ最新モデルは
はアンカーフリーだが、フレームワークはさまざまなアーキテクチャをサポートしている。次の例は
を実行する方法を示している:
from ultralytics import YOLO
# Load a pre-trained object detection model
# Note: YOLOv5 is a classic example of an anchor-based architecture
model = YOLO("yolov5su.pt")
# Perform inference on a local image
results = model("path/to/image.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()
アンカーベースの検出器の仕組みを理解することは、コンピュータビジョンの進化とその設計上の選択を理解するための強固な基礎となる。 コンピュータ・ビジョンの進化と 高度なアルゴリズム YOLO11や YOLO26のような将来的な反復の背後にある設計上の選択を把握するための確かな基礎となる。