アンカーボックスがどのようにアンカーベースの物体検出、分類、回帰、NMSための事前分布を可能にし、自律走行や小売業に応用されているかを学ぶ。
アンカーボックスは、多くの物体検出モデルのアーキテクチャの基礎となる概念である。 アンカーボックスは、多くの物体検出モデルのアーキテクチャの基礎となる概念である。 として機能する。画像をスキャンして任意の大きさの物体を探すのではなく このモデルは、ゼロから任意の寸法の物体をスキャンするのではなく、特定の高さと幅で定義されたこれらの固定された形状を出発点として使用します、 またはプリオールとして使用する。このアプローチは、絶対座標予測という困難な課題を、より扱いやすい回帰に変換することによって、学習プロセスを単純化する。 絶対座標予測という困難なタスクを、より管理しやすい回帰問題に変換することで、学習プロセスを単純化する。 テンプレートは、グラウンド・トゥルース・オブジェクトに適合するように調整する、つまり「オフセット」することを学習する。この のような一般的なアーキテクチャの成功には、この技術が極めて重要であった。 より高速なR-CNNファミリや初期のシングルステージ検出器のような一般的なアーキテクチャの成功において、この技術は極めて重要です。
アンカーボックスの仕組みは、入力画像を高密度のグリッドの中心でタイリングする。各グリッドセルには アスペクト比とスケールが異なる複数のアンカーボックスが生成される。 各グリッドセルでは、背の高い歩行者や幅の広い車両など、さまざまな形状のオブジェクトに対応するため、縦横比やスケールの異なる複数のアンカーボックスが生成される。モデルの学習段階では モデルの学習段階では、システムはこれらのアンカーを と呼ばれるメトリックを使用して実際のオブジェクトと照合する。 Intersection over Union (IoU)と呼ばれる指標を使用する。アンカー がターゲット・オブジェクトと有意に重なるものは、ポジティブ・サンプルとしてラベル付けされる。
検出器のバックボーンは画像から特徴を抽出する、 検出ヘッドはこの特徴を用いて を並行して実行する:
同じオブジェクトの重複予測を処理するために、次のような後処理ステップがあります。 非最大抑制(NMS)として知られる後処理ステップ と呼ばれる後処理ステップで、冗長なボックスをフィルタリングし、最も信頼度の高いボックスのみを保持する。次のようなフレームワーク PyTorchや TensorFlowは、これらの複雑な操作を効率的に実行するために必要な計算ツールを提供する。 を提供する。
アンカーボックスを理解するには、コンピュータ・ビジョン(CV)の類似用語と区別する必要がある。 コンピュータビジョン(CV)の類似用語と区別する必要があります。
アンカーボックスの構造的な性質は、オブジェクトの形状が一貫している環境で特に効果的である。 特に効果的です。
YOLO11 ような最新のモデルはアンカーを使用しないが、YOLOv5 ような初期のモデルはアンカーボックスを使用する。そのため
ultralytics パッケージはこの複雑さを抽象化し、ユーザーが手動でアンカーを設定しなくても推論を実行できるようにする。
アンカーを手動で設定することなく推論を実行できる。次の例では、オブジェクトをdetect するために事前にトレーニングされたモデルをロードしている:
from ultralytics import YOLO
# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")
# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected bounding boxes
results[0].show()
このようなシステムの数学的基礎に興味がある人には、次のような教育プラットフォームがある。 Coursera(コーセラ)や DeepLearning.AIは、畳み込みニューラルネットワークと物体検出に関する詳細なコースを提供している。 を提供している。