YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

フィーチャーピラミッドネットワーク(FPN)

特徴ピラミッドネットワーク(FPN)がいかにマルチスケール物体検出を強化するかを探ります。Ultralytics YOLO26がいかに高度なFPNを使用して小さな物体と大きな物体をdetectするかを学びましょう。

Feature Pyramid Network (FPN) は、現代のコンピュータービジョン (CV)システムで使用される特殊なアーキテクチャコンポーネントであり、さまざまなスケールでのオブジェクトのdetectを改善します。これは、画像分析における長年の課題、すなわち同じ画像内で大きく目立つ構造と小さく遠くにある詳細の両方を認識するという課題を効果的に解決します。入力のマルチスケール表現を生成することで(概念的にはピラミッドに似ています)、FPNはニューラルネットワークがあらゆる解像度レベルで豊富なセマンティック情報を抽出することを可能にします。このアーキテクチャは通常、生の特徴を抽出するバックボーンと、オブジェクトクラスとバウンディングボックスを予測する検出ヘッドの間に位置します。

特徴ピラミッドネットワークはどのように機能するか

FPNの核となる革新は、情報の処理方法にあります。従来の畳み込みニューラルネットワーク (CNN)は、入力画像が段階的にダウンサンプリングされる特徴の階層を自然に生成します。これは意味的理解(画像に何があるかを知る)を深める一方で、空間解像度(それがどこにあるかを正確に知る)を低下させることが多く、小さなオブジェクトが見えなくなってしまいます。

FPNは、この問題を3段階のプロセスで解決します。

  1. ボトムアップパスウェイ: これは、Residual Network (ResNet)のような、ネットワークの標準的な順方向パスです。ネットワークが画像を処理するにつれて、サイズは減少するもののセマンティックな価値は増加する特徴マップが作成されます。
  2. トップダウンパスウェイ:ネットワークは、より深い層からの意味的に豊かな特徴をアップサンプリングすることで、高解像度ピラミッドを構築します。このステップは、強力なコンテキストをより大きな空間マップに「幻覚」させます。
  3. 横方向接続: ダウンサンプリング中に失われた鮮明な詳細を回復するために、FPNはアップサンプリングされた特徴を、横方向接続を介してボトムアップパスウェイからの元の高解像度マップと融合させます。

この組み合わせにより、すべてのレベルで強力なセマンティクス良好なローカリゼーションを持つピラミッドが形成され、すべてのオブジェクトサイズにおいてprecisionrecallが大幅に向上します。

オブジェクトdetectアーキテクチャにおける重要性

FPNは、現代の物体検出アーキテクチャの要石です。その導入以前は、モデルは速度(最終層のみを使用)か精度(画像ピラミッドの処理、これは非常に遅い)のいずれかを選択する必要がありました。FPNは、小規模な物体検出能力を犠牲にすることなく、リアルタイム推論を可能にする、両方の利点を兼ね備えたソリューションを提供します。

この効率性は、FPNの原則(PANetなど)に触発された洗練された集約ネットワークを利用して最先端の性能を達成する、YOLO26のような高度なモデルにとって極めて重要です。このアーキテクチャは、モデルがエッジデバイスにデプロイされるか、Ultralytics Platformを介して強力なサーバーにデプロイされるかに関わらず、多様なデータセットで高い精度を維持することを保証します。

実際のアプリケーション

FPNのマルチスケール機能は、安全性と精度が最重要視される産業において不可欠なものとなっています。

  • 自動車におけるAI: 自律走行車は、近くの大型トラックと遠くの小さな信号機や歩行者を同時にtrackする必要があります。FPNは、知覚スタックがこれらの異なるスケールを単一のパスで処理することを可能にし、タイムリーな意思決定を保証します。nuScenesのようなデータセットは、これらの能力をベンチマークするためにしばしば使用されます。
  • Medical Image Analysis: 診断画像において、病理をdetectするには、サイズが大きく異なる異常を発見する必要があります。FPNを搭載したモデルは、大きな臓器構造と小さな初期段階の腫瘍の両方をMRIスキャンで識別でき、放射線科医が正確な診断を下すのを支援します。
  • 農業におけるAI: 精密農業は、ドローン画像からの作物と害虫のdetectに依存します。ドローンの高度が変化する可能性があるため、画像内の植物のサイズも変化します。FPNは、カメラの高さに関係なく、モデルがうまく汎化し、正確に物体カウントを実行するのに役立ちます。

FPNとその他の特徴アグリゲーター

標準的なFPNを、新しいアーキテクチャに見られる進化したバリアントと区別することは有用です。

  • FPN vs. PANet: FPNが特徴を豊かにするためにトップダウンパスを追加するのに対し、パス集約ネットワーク(PANet)はFPNの上にさらにボトムアップパスを追加します。これにより、低レベル特徴の情報パスが短縮され、ローカライゼーションがさらに改善されます。これはYOLOモデルでよく採用される技術です。
  • FPN vs. BiFPN: EfficientDetに搭載されている双方向特徴ピラミッドネットワーク(BiFPN)は、異なる特徴に学習可能な重みを導入し、入力が1つだけのノードを削除することで、ネットワークを効率化します。

実例

次のような高度なライブラリ ultralytics FPN構築の複雑さを内部で処理します。YOLO26のようなモデルをロードすると、アーキテクチャはこれらの特徴集約レイヤーを自動的に含み、パフォーマンスを最大化します。

from ultralytics import YOLO

# Load the YOLO26 model, which uses advanced feature pyramid principles internally
# The 'n' suffix indicates the nano version, optimized for speed
model = YOLO("yolo26n.pt")

# Perform inference on an image containing objects of various sizes
# The model's neck (FPN-based) aggregates features to detect small and large items
results = model("https://ultralytics.com/images/bus.jpg")

# Display results to see bounding boxes around buses (large) and people (small)
results[0].show()

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。