Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Réseau de pyramides de caractéristiques (FPN)

Découvrez comment les Feature Pyramid Networks (FPN) permettent de détecter des objets à plusieurs échelles et d'améliorer la précision pour les objets de petite et de grande taille dans YOLO11 et les systèmes CV modernes.

Un réseau Feature Pyramid Network (FPN) est un composant des modèles d'apprentissage profond, en particulier des architectures de détection d'objets, conçu pour améliorer la détection d'objets à différentes échelles. Dans une image donnée, les objets peuvent apparaître grands ou petits en fonction de leur taille et de leur distance par rapport à la caméra. FPN relève ce défi en créant efficacement une représentation multi-échelle des caractéristiques, ce qui permet à un modèle de reconnaître simultanément une petite voiture éloignée et un gros camion proche avec une grande précision. Il sert de pont, ou de "cou", entre l'extracteur de caractéristiques principal et le composant de prédiction final d'un réseau.

Fonctionnement d'un réseau pyramidal de fonctionnalités

Un FPN fonctionne en combinant des caractéristiques à faible résolution et sémantiquement fortes avec des caractéristiques à haute résolution et sémantiquement faibles. Ce processus est généralement réalisé au moyen d'une structure à deux voies et de connexions latérales.

  1. Voie ascendante : Il s'agit de la passe avant standard d'un réseau neuronal convolutif (CNN), qui sert de colonne vertébrale au modèle. Au fur et à mesure qu'une image passe par des couches successives, les cartes de caractéristiques qui en résultent diminuent en taille spatiale mais augmentent en profondeur sémantique, ce qui signifie qu'elles capturent des concepts plus abstraits.
  2. Voie descendante : Le réseau prend ensuite la carte des caractéristiques de la couche la plus profonde (qui est petite mais riche en informations) et commence à l'échantillonner.
  3. Connexions latérales : Lorsque la voie descendante reconstruit des cartes de caractéristiques plus larges, elle les fusionne avec les cartes de caractéristiques correspondantes de la voie ascendante. Cette fusion enrichit les couches suréchantillonnées avec les détails plus fins et plus localisés des couches précédentes. Le résultat est une "pyramide" de cartes de caractéristiques, chacune riche en sémantique et en détails spatiaux, qui est ensuite transmise à la tête de détection pour la prédiction. Le document de recherche FPN original fournit une explication technique détaillée de ce processus.

Le rôle des FPN dans la détection d'objets

Dans un modèle de détection d'objets typique, l'architecture est divisée en une colonne vertébrale, un cou et une tête. Le FPN est un choix populaire pour le composant du cou. Son rôle principal est d'agréger les caractéristiques extraites par l'épine dorsale avant de les utiliser pour la tâche de détection finale. En fournissant une représentation riche et multi-échelle des caractéristiques, les FPN permettent aux modèles tels que YOLO11 de fonctionner de manière robuste sur une large gamme de tailles d'objets. Cette approche est plus efficace sur le plan des calculs que le traitement séparé d'une image à plusieurs résolutions, car elle réutilise les caractéristiques calculées lors de la seule passe avant de l'épine dorsale. De nombreux modèles de pointe tirent parti de ce concept, comme le montrent diverses comparaisons de modèles YOLO.

Applications concrètes

Les FPN font partie intégrante de nombreuses applications modernes de vision par ordinateur où la détection d'objets à plusieurs échelles est essentielle.

  • Véhicules autonomes: Les voitures autonomes doivent détecter les piétons, les véhicules, les panneaux de signalisation et les marquages de voie à différentes distances. Un FPN aide le système de perception du véhicule, détaillé dans les ressources d'institutions telles que l'université Carnegie Mellon, à identifier un piéton éloigné et une voiture proche dans le même cadre, ce qui est essentiel pour une navigation sûre.
  • Analyse d'images médicales: En radiologie, les FPN peuvent aider à analyser les scanners médicaux pour détecter des anomalies de différentes tailles, telles que de petites lésions et de grandes tumeurs. Cette capacité multi-échelle permet des diagnostics automatisés plus complets et plus précis dans des domaines tels que la pathologie et l'oncologie, comme le montrent les recherches publiées par les National Institutes of Health (NIH).

FPN vs. BiFPN

Si le réseau FPN a constitué une avancée significative, des architectures plus récentes ont fait évoluer le concept. Un exemple notable est le Bi-directional Feature Pyramid Network (BiFPN), introduit dans l'article EfficientDet de Google Research. Contrairement à la voie descendante simple du FPN, le BiFPN introduit des connexions bidirectionnelles (à la fois descendantes et ascendantes) et utilise une fusion pondérée des caractéristiques, ce qui permet au réseau d'apprendre l'importance des différentes caractéristiques d'entrée. Cela permet souvent d'améliorer les performances et l'efficacité, comme le montrent des comparaisons telles que EfficientDet vs. YOLO11. Alors que FPN est un concept fondamental, BiFPN représente une approche plus avancée et optimisée de la fusion de caractéristiques multi-échelles.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers