Yolo 深圳
深セン
今すぐ参加
用語集

検出ヘッド

物体検出における検出ヘッドの重要な役割をご覧ください。特徴マップを洗練して、物体の位置とクラスを正確に特定します。

検出ヘッドは物体検出モデルの最後の、そしておそらく最も重要なコンポーネントであり、符号化された画像の特徴を実用的な予測に変換する意思決定層として機能する。 エンコードされた画像の特徴を実用的な予測に変換する意思決定層として機能する。ディープラーニング・ニューラルネットワークの ディープラーニング・ニューラルネットワークの一番最後、特に 検出ヘッドは高レベルの特徴マップを処理し、最終的な出力を生成する。 特徴マップを処理して最終的な出力を生成する。 オブジェクトのクラスと画像内の正確な位置である。ネットワークの初期レイヤーは特徴抽出に重点を置く。 検出ヘッドはこのデータを解釈し、「それは何か? "それは何か?""どこにあるのか?"

機能とアーキテクチャ

検出ヘッドの主な役割は、分類と回帰という2つの異なるが同時のタスクを実行することである。 回帰である。最新の オブジェクト検出アーキテクチャでは ヘッド内の別々のブランチで処理されることが多い。 これは、モデルが予測の異なる側面に特化できるようにするための設計上の選択です。

  • 分類ブランチ:このサブコンポーネントは、さまざまなカテゴリー(例:「人」、「自転車」、「信号機」)に確率スコアを割り当てる、 「人」「自転車」「信号機」など)に確率スコアを割り当てる。これは クロスエントロピー損失などの損失関数を利用し、クラス間の違いを学習する。 クラス間の違いを学習する。
  • 回帰枝:ヘッドのこの部分は、オブジェクトを包むバウンディングボックスの空間座標を予測する。 空間座標を予測します。これは ボックスの寸法(x,y,幅,高さ)をグランドトゥルース(真実の画像)に近づけ、多くの場合、最小化します。 IoU(Intersection over Union)ロスを最小にします。

検出ヘッドからの出力は通常、検出候補の密な集合である。結果を確定するために のような後処理ステップ ノンマキシマムサプレッション(NMS) のような後処理ステップが適用されます。

検出ヘッドの種類

検出ヘッドの設計は、モデルがどのように物体の定位問題にアプローチするかを決定する。

  • アンカーベースのヘッド従来の 初期の YOLO バージョンのような従来の1段式物体検出器は、あらかじめ定義されたアンカーボックスに依存している。ヘッド ヘッドはこの固定された参照ボックスからのオフセットを予測する。このアプローチは効果的ではあるが、アンカーのハイパーパラメータを慎重に調整する必要がある。 アンカーハイパーパラメータ
  • アンカー・フリー・ヘッド:以下を含む最新モデル Ultralytics YOLO11を含む アンカーフリーディテクター。これらのヘッドは プリセットボックスに頼ることなく、特徴マップのピクセルから直接オブジェクトの中心とサイズを予測します。これにより モデル・アーキテクチャを単純化し、異なる物体形状に対する汎化性を向上させる。

実際のアプリケーション

検出ヘッドの効率と精度は、複雑な人工知能(AI)の導入に不可欠である。 人工知能(AI)を複雑な 不可欠である。

  1. 医療診断医療画像解析において 医療画像解析では は、X線やMRIスキャンで腫瘍や骨折などの異常をピンポイントで検出するように訓練されています。例えば ヘルスケアにおけるAIは高精度ヘッドに依存している。 を利用することで、偽陰性を減らし、放射線科医による病気の早期発見を支援している。
  2. 小売分析:スマート・ストアはコンピュータ・ビジョンを使って在庫をtrack し、顧客の行動を監視する。 行動を監視します。検出ヘッド 検出ヘッドは、棚に陳列された特定の商品を識別したり、紛失防止のために不審な行動を検出したりすることができます。 また、ビデオフィードをリアルタイムで処理し、紛失防止のために不審な行動をdetect します。

ヘッドとバックボーンとネックの比較

検出ヘッドをCNNの他の主要コンポーネントと区別することは有益である。 畳み込みニューラルネットワーク(CNN)

  • バックボーン: バックボーン(ResNetや CSPDarknetなど)は、入力画像から生の視覚的特徴を抽出する役割を担う。
  • ネック:ネック(多くの場合 特徴ピラミッドネットワーク(FPN)は、これらの特徴を混合し 異なるスケールのコンテキストを集約する。
  • ヘッド:検出ヘッドは、これらの洗練された特徴を消費して、最終的なクラスと座標の予測を生成する。 予測値を生成する。

実施例

以下のPython コード・スニペットは、事前にトレーニングされたYOLO11 モデルの検出ヘッドを検査する方法を示している。 その ultralytics パッケージに含まれている。これは、推論を担当する最終レイヤーの構造を理解するのに役立つ。 の構造を理解するのに役立つ。

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Inspect the final detection head layer
# This typically reveals the number of classes (nc) and anchors/outputs
print(model.model.model[-1])

# Run inference to see the head's output in action
results = model("https://ultralytics.com/images/bus.jpg")

検出ヘッドを理解することは、モデルの性能を最適化したり、高度なタスクを実行したりするために不可欠である。 モデル性能の最適化や高度なタスクの実行 新しいカスタムデータセットでモデルをトレーニングするためにヘッドを交換することが多い。 ような高度なタスクを実行するために不可欠です。研究者は常に のようなメトリクスを改善するために、研究者は常に新しいヘッド設計を試しています。 平均平均精度 コンピュータ・ビジョンが達成できる限界を押し広げています。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加