Découvrez comment les Feature Pyramid Networks (FPN) permettent de détecter des objets à plusieurs échelles et d'améliorer la précision pour les objets de petite et de grande taille dans YOLO11 et les systèmes CV modernes.
Un réseau Feature Pyramid Network (FPN) est un composant des modèles d'apprentissage profond, en particulier des architectures de détection d'objets, conçu pour améliorer la détection d'objets à différentes échelles. Dans une image donnée, les objets peuvent apparaître grands ou petits en fonction de leur taille et de leur distance par rapport à la caméra. FPN relève ce défi en créant efficacement une représentation multi-échelle des caractéristiques, ce qui permet à un modèle de reconnaître simultanément une petite voiture éloignée et un gros camion proche avec une grande précision. Il sert de pont, ou de "cou", entre l'extracteur de caractéristiques principal et le composant de prédiction final d'un réseau.
Un FPN fonctionne en combinant des caractéristiques à faible résolution et sémantiquement fortes avec des caractéristiques à haute résolution et sémantiquement faibles. Ce processus est généralement réalisé au moyen d'une structure à deux voies et de connexions latérales.
Dans un modèle de détection d'objets typique, l'architecture est divisée en une colonne vertébrale, un cou et une tête. Le FPN est un choix populaire pour le composant du cou. Son rôle principal est d'agréger les caractéristiques extraites par l'épine dorsale avant de les utiliser pour la tâche de détection finale. En fournissant une représentation riche et multi-échelle des caractéristiques, les FPN permettent aux modèles tels que YOLO11 de fonctionner de manière robuste sur une large gamme de tailles d'objets. Cette approche est plus efficace sur le plan des calculs que le traitement séparé d'une image à plusieurs résolutions, car elle réutilise les caractéristiques calculées lors de la seule passe avant de l'épine dorsale. De nombreux modèles de pointe tirent parti de ce concept, comme le montrent diverses comparaisons de modèles YOLO.
Les FPN font partie intégrante de nombreuses applications modernes de vision par ordinateur où la détection d'objets à plusieurs échelles est essentielle.
Si le réseau FPN a constitué une avancée significative, des architectures plus récentes ont fait évoluer le concept. Un exemple notable est le Bi-directional Feature Pyramid Network (BiFPN), introduit dans l'article EfficientDet de Google Research. Contrairement à la voie descendante simple du FPN, le BiFPN introduit des connexions bidirectionnelles (à la fois descendantes et ascendantes) et utilise une fusion pondérée des caractéristiques, ce qui permet au réseau d'apprendre l'importance des différentes caractéristiques d'entrée. Cela permet souvent d'améliorer les performances et l'efficacité, comme le montrent des comparaisons telles que EfficientDet vs. YOLO11. Alors que FPN est un concept fondamental, BiFPN représente une approche plus avancée et optimisée de la fusion de caractéristiques multi-échelles.