Découvrez comment les réseaux pyramidaux à caractéristiques (FPN) améliorent la détection d'objets à plusieurs échelles. Découvrez comment Ultralytics utilise des FPN avancés pour detect et les grands objets.
Un réseau pyramidal (FPN) est un composant architectural spécialisé utilisé dans la systèmes de vision par ordinateur (CV) afin d' améliorer la détection d'objets à différentes échelles. Il résout efficacement un défi de longue date dans l'analyse d'images : la reconnaissance à la fois des structures importantes et proéminentes et des détails minuscules et distants au sein d'une même image. En générant une représentation multi-échelle de l'entrée, conceptuellement similaire à une pyramide, les FPN permettent aux réseaux neuronaux d'extraire des informations sémantiques riches à tous les niveaux de résolution. Cette architecture se situe généralement entre le backbone, qui extrait les caractéristiques brutes, et la tête de détection, qui prédit les classes d'objets et les cadres de sélection.
L'innovation principale du FPN réside dans la manière dont il traite les informations. Les réseaux neuronaux convolutifs (CNN) créent naturellement une hiérarchie de caractéristiques où l'image d'entrée est progressivement sous-échantillonnée. Bien que cela approfondisse la compréhension sémantique (savoir ce qui se trouve dans l'image), cela dégrade souvent la résolution spatiale (savoir exactement où cela se trouve), faisant disparaître les petits objets.
Les FPN abordent cette question à travers un processus en trois étapes :
Cette combinaison donne lieu à une pyramide où chaque niveau possède une sémantique forte et une bonne localisation, ce qui améliore considérablement la précision et le le rappel pour toutes les tailles d'objets.
Les FPN sont la pierre angulaire des architectures modernes de détection d'objets. Avant leur introduction, les modèles devaient choisir entre la vitesse (en utilisant uniquement la couche finale) ou la précision (en traitant une pyramide d'images, ce qui est très lent). Les FPN offrent une solution qui combine le meilleur des deux mondes, permettant une inférence en temps réel sans sacrifier les capacités de détection des petits objets.
Cette efficacité est cruciale pour les modèles avancés tels que YOLO26, qui utilise des réseaux d'agrégation sophistiqués inspirés des principes FPN (comme PANet) pour atteindre des performances de pointe. L'architecture garantit que, que le modèle soit déployé sur des appareils périphériques ou sur des serveurs puissants via la Ultralytics , il maintienne une grande précision sur divers ensembles de données.
La capacité multi-échelle des FPN les rend indispensables dans les industries où la sécurité et la précision sont primordiales.
Il est utile de distinguer le FPN standard de ses variantes évoluées que l'on trouve dans les architectures plus récentes.
Bibliothèques avancées telles que ultralytics gérer en interne la complexité de la construction du FPN. Lorsque vous chargez un
modèle tel que YOLO26, l'architecture inclut automatiquement ces couches d'agrégation de caractéristiques afin d'optimiser les performances.
from ultralytics import YOLO
# Load the YOLO26 model, which uses advanced feature pyramid principles internally
# The 'n' suffix indicates the nano version, optimized for speed
model = YOLO("yolo26n.pt")
# Perform inference on an image containing objects of various sizes
# The model's neck (FPN-based) aggregates features to detect small and large items
results = model("https://ultralytics.com/images/bus.jpg")
# Display results to see bounding boxes around buses (large) and people (small)
results[0].show()