特徴ピラミッドネットワーク(FPN)が、YOLO11や最新のCVシステムにおいて、どのようにマルチスケールの物体検出を可能にし、小さな物体から大きな物体までの検出精度を高めているかをご紹介します。
特徴ピラミッドネットワーク(FPN)は、ディープラーニングモデル、特に物体検出アーキテクチャ内のコンポーネントであり、様々なスケールの物体の検出を改善するように設計されている。任意の画像において、物体はその大きさやカメラからの距離によって大きく見えたり小さく見えたりする。FPNは、特徴のマルチスケール表現を効率的に作成することでこの課題に対処し、モデルが同時に、遠くの小さな車と近くの大きなトラックを高い精度で認識できるようにする。FPNは、主要な特徴抽出器とネットワークの最終的な予測コンポーネントの間のブリッジ(ネック)として機能する。
FPNは、低解像度で意味的に強い特徴を、高解像度で意味的に弱い特徴と組み合わせることで機能する。このプロセスは通常、2つの経路と横方向の接続を持つ構造によって実現される。
典型的な物体検出モデルでは、アーキテクチャーは背骨、首、頭部に分割される。ネックコンポーネントにはFPNがよく使われる。その主な役割は、最終的な検出タスクに使用する前に、バックボーンによって抽出された特徴を集約することである。FPNは豊富なマルチスケール特徴表現を提供することで、YOLO11のようなモデルが幅広いオブジェクトサイズにわたってロバストな性能を発揮することを可能にする。このアプローチは、バックボーンのシングルフォワードパスで計算された特徴を再利用するため、複数の解像度で画像を個別に処理するよりも計算効率が高い。様々なYOLOモデルの比較に見られるように、多くの最先端モデルはこのコンセプトを活用している。
FPNは、マルチスケールの物体検出が重要な現代のコンピュータビジョン(CV)アプリケーションの多くに不可欠である。
FPNは大きな進歩を遂げたが、より新しいアーキテクチャがそのコンセプトを進化させている。注目すべき例は、Google ResearchのEfficientDet論文で紹介されたBi-directional Feature Pyramid Network(BiFPN)である。FPNの単純なトップダウン経路とは異なり、BiFPNは双方向接続(トップダウンとボトムアップの両方)を導入し、重み付けされた特徴融合を使用することで、ネットワークが異なる入力特徴の重要性を学習することを可能にする。これは、EfficientDet対YOLO11のような比較で強調されているように、性能と効率の向上につながることが多い。FPNは基礎的な概念であるが、BiFPNはマルチスケール特徴フュージョンのより高度で最適化されたアプローチである。