特徴ピラミッドネットワーク(FPN)が、YOLO11 最新のCVシステムにおいて、どのようにマルチスケールの物体検出を可能にし、小さな物体から大きな物体までの検出精度を高めているかをご紹介します。
フィーチャピラミッドネットワーク(FPN)は、現代における基本的なアーキテクチャである。 コンピュータビジョン設計された における基本的なアーキテクチャである。従来の ディープラーニングモデルはしばしば 従来のディープラーニング(DL)モデルは、空間解像度が失われる深い層に依存しているため、小さな物体を認識するのに苦労していた。FPNはこれに対処する。 のピラミッド型構造を構築することで、この問題を解決した。 特徴マップピラミッド構造 低解像度で意味的に強い特徴と、高解像度で空間的に詳細な特徴とを組み合わせた特徴マップのピラミッド構造を構築する。この設計は この設計は、多くの 物体検出アーキテクチャとして知られる最初の特徴抽出器をつなぐ。 バックボーン-最終的な予測層、つまり 検出ヘッド.異なるレベル間で効率的に情報を共有することで、FPNは以下のようなモデルを可能にする。 YOLO11のようなモデルは、1つの画像内の小さな を正確に識別することができる。
フィーチャー・ピラミッド・ネットワークの革新性の核心は、3つの明確な段階を通して視覚情報をどのように処理するかにある。 段階に分けて処理することにある。この構造により、ネットワークは膨大な計算コストをかけることなく、複数の解像度に渡って画像の豊かな表現を維持することができる。 膨大な計算コストをかけることなく。
現実の世界では、カメラからの距離によって物体の大きさが大きく異なる。A 標準的な分類器では、フレームを埋め尽くす車は簡単に検出できても、背景にいる歩行者はdetect できないかもしれません。FPN は、予測タスクをピラミッドの異なるレベルに割り当てることでこれを解決します。大きな物体は 一方、小さな物体は高解像度の融合特徴マップ上で検出されます。この機能 を達成するために不可欠である。 高精度そして リコール多様な環境で FPN搭載モデルと旧式のシングルスケール検出器を区別。
マルチスケールデータを処理する能力により、FPNは、以下のような様々な業界で不可欠なものとなっている。 人工知能 (AI).
FPNが特徴抽出に革命をもたらした一方で、新しいアーキテクチャはそのコンセプトを洗練させてきた。注目すべき進化は によって導入されたBi-directional Feature Pyramid Network(BiFPN)である。 Google EfficientDetアーキテクチャに導入された。一方通行(トップダウン)の標準的なFPNとは異なり 一方通行(トップダウン)の標準的なFPNとは異なり、BiFPNはボトムアップの経路を追加し、各接続の特定の重みを学習する。 より重要な機能を優先する。しかし、標準的なFPN設計とその変形は、以下のような高性能モデルの基盤であり続けている。 のような高性能モデルの基盤であり続けている。 YOLO11のような高性能モデルの基盤であり続けている。 リアルタイム推論 タスクに最適です。
最近のライブラリーはFPNの複雑さを内部で処理している。次の例は Ultralytics YOLOパッケージを使用しています。 高度な特徴ピラミッド構造により、あらゆるサイズの物体をシームレスにdetect します。
from ultralytics import YOLO
# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()

