特徴ピラミッドネットワーク(FPN)が、YOLO11 最新のCVシステムにおいて、どのようにマルチスケールの物体検出を可能にし、小さな物体から大きな物体までの検出精度を高めているかをご紹介します。
特徴ピラミッドネットワーク(FPN)は、 コンピュータビジョン(CV)において 異なるスケールにおける物体検出を改善するために用いられる特殊なアーキテクチャである。これは多くの現代的な 物体検出アーキテクチャにおいて重要な構成要素でありにおいて重要な構成要素として機能し、小さな物体の認識に苦労する従来の検出器の限界を克服するよう設計されています。単一解像度の入力画像から マルチスケールの特徴ピラミッドを生成することで、FPNはモデルが大きな構造物と 微細なdetect 高精度でdetect することを可能にします。このアーキテクチャは通常、 バックボーン (特徴抽出を行う)と 検出ヘッド 検出ヘッド (クラスとバウンディングボックスを予測)の間に配置され、最終層に渡される意味情報を効果的に強化する。
FPNの主な目的は、深層畳み込みニューラルネットワーク(CNN)に内在するマルチスケール・ピラミッド型階層構造を活用することである。 畳み込みニューラルネットワーク(CNN)の固有のマルチスケール・ピラミッド型階層構造を活用することである。これにより、複数の画像スケールを個別に処理する際の計算コストを削減しつつ、 を処理する際の計算コストを削減することです。このアーキテクチャは視覚データを処理する3つの主要経路で構成されます:
FPNが登場する以前、物体検出器は通常、最上位層のみを使用する(大きな物体には有効だが小さな物体には不向き)か、画像ピラミッドを処理する(遅く計算コストが高い)かの選択を迫られていた。FPNは「両方の長所を兼ね備えた」解決策を提供する。この機能は リアルタイム推論において極めて重要であり、 YOLO26 や YOLO11 が、画面上でわずか数ピクセルしか占めない物体を正確に識別しながら、高いフレームレートを維持できるようにします。
マルチスケールデータを処理する能力により、FPNは、以下のような様々な業界で不可欠なものとなっている。 人工知能 (AI).
FPNが特徴抽出に革命をもたらした一方で、より新しいアーキテクチャがこの概念を洗練させてきた。
Ultralytics 、FPNの複雑性を内部で処理します。以下の例は、detect モデルの読み込み方法を示しています。
from ultralytics import YOLO
# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()
.webp)
