Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Réseau de pyramides de caractéristiques (FPN)

Découvrez comment les Feature Pyramid Networks (FPN) permettent de détecter des objets à plusieurs échelles et d'améliorer la précision pour les objets de petite et de grande taille dans YOLO11 et les systèmes CV modernes.

Le réseau Feature Pyramid Network (FPN) est une architecture fondamentale dans les systèmes modernes d'information. vision par ordinateur (VPI) moderne, conçue pour detect objets à différentes échelles avec une grande précision. Les réseaux d'apprentissage profond (DL) traditionnels ont souvent du mal à reconnaître les petits objets parce qu'ils s'appuient sur des couches profondes où la résolution spatiale est perdue. FPN résout ce problème en construisant une structure pyramidale de couches profondes. en construisant une structure pyramidale de cartes de caractéristiques qui combine des caractéristiques à faible résolution et sémantiquement fortes avec des caractéristiques à haute résolution et spatialement détaillées. Cette conception agit comme un de nombreuses cartes d'entités. architectures de détection d'objetsElle relie l'extracteur de caractéristiques initial, connu sous le nom d'extracteur d'objets, à l'extracteur d'images. colonne vertébrale-aux couches de prédiction finales, ou le tête de détection. En partageant efficacement les informations entre les différents niveaux, les FPN permettent de créer des modèles tels que YOLO11 d'identifier avec précision à la fois de minuscules détails éloignés et de grands sujets proéminents au sein d'une même image, détails minuscules et éloignés et les sujets importants et proéminents dans une seule image.

Comprendre l'architecture

L'innovation principale d'un réseau Feature Pyramid réside dans la manière dont il traite les informations visuelles en trois étapes distinctes. distinctes. Cette structure permet au réseau de conserver une représentation riche de l'image à travers plusieurs résolutions sans engendrer de coûts de calcul importants.

  1. La voie ascendante : Cette étape correspond à la passe avant d'une norme. réseau neuronal convolutif (CNN)standard, tel que ResNet. Au fur et à mesure que l'image passe dans le réseau, les dimensions spatiales diminuent tandis que la valeur sémantique (compréhension du contexte) augmente. contextuelle) augmente.
  2. Voie descendante : Pour récupérer les détails spatiaux perdus, le réseau suréchantillonne les cartes spatiales grossières mais sémantiquement riches des couches profondes. Ce processus permet de reconstruire efficacement des cartes résolution plus élevée qui contiennent un contexte fort.
  3. Connexions latérales : L'étape cruciale consiste à fusionner les cartes suréchantillonnées de la voie descendante avec les cartes correspondantes de la voie ascendante. Ces connexions latérales fusionnent le contexte sémantique de haut niveau avec les textures et les bords de bas niveau trouvés dans les couches précédentes, créant ainsi une connexion latérale. sémantique de haut niveau avec les textures et les arêtes de bas niveau trouvées dans les couches précédentes, créant ainsi une pyramide de caractéristiques multi-échelles. L'image original document de recherche FPN explique en détail comment cette fusion améliore considérablement les performances sur des ensembles de données de référence tels que COCO.

L'importance de la détection multi-échelle

Dans le monde réel, les objets apparaissent dans des tailles très différentes en fonction de leur distance par rapport à la caméra. A classificateur standard pourrait facilement repérer une voiture remplissant le cadre, mais ne pas detect un piéton à l'arrière-plan. Les FPN résolvent ce problème en assignant des tâches de prédiction à différents niveaux de la pyramide. Les objets de grande taille sont détectés sur les cartes de caractéristiques profondes à basse résolution. Les grands objets sont détectés sur les cartes de caractéristiques profondes à basse résolution, tandis que les petits objets sont détectés sur les cartes de caractéristiques fusionnées à haute résolution. Cette capacité Cette capacité est essentielle pour obtenir une précision et rappel dans divers environnements, distinguer les modèles équipés de FPN des anciens détecteurs à échelle unique.

Applications concrètes

La capacité à traiter des données multi-échelles rend les FPN indispensables dans les différents secteurs d'activité qui dépendent de la technologie. l'intelligence artificielle (IA).

  • Véhicules autonomes: Les systèmes de conduite autonome doivent simultanément track véhicules proches et les feux de circulation éloignés. Un FPN permet à la pile de de perception de traiter ces éléments dans la même passe d'inférence, garantissant ainsi que les décisions critiques en matière de sécurité sont prises en temps réel. prises en temps réel. Des recherches de pointe menées par des organisations telles que Waymo souligne l'importance d'une telle compréhension multi-échelle pour la navigation. échelle pour la navigation.
  • Analyse d'images médicales: En imagerie l'imagerie diagnostique, l'identification des anomalies nécessite une précision à toutes les échelles. Une tumeur peut être une grosse masse ou un minuscule nodule, nodule à un stade précoce. Les FPN améliorent segmentation d'images d'images utilisés en radiologie, aidant les cliniciens à detect pathologies de taille variable dans les radiographies et les IRM. Revues d'IA en radiologie.

FPN vs. BiFPN

Si les FPN ont révolutionné l'extraction de caractéristiques, des architectures plus récentes ont affiné le concept. Une évolution notable est le Bi-directional Feature Pyramid Network (BiFPN), introduit par Google Research dans l'architecture EfficientDet. Contrairement au FPN standard qui circule dans un seul sens (du haut vers le bas), BiFPN ajoute des chemins du bas vers le haut et apprend des poids spécifiques pour chaque connexion, en donnant la priorité aux caractéristiques les plus importantes. pour chaque connexion, en donnant la priorité aux caractéristiques les plus importantes. Cependant, les conceptions FPN standard et leurs variantes restent la pour les modèles à haute performance tels que le YOLO11qui permettent d'équilibrer efficacement la vitesse et la précision pour la plupart des l'inférence en temps réel d'inférence en temps réel.

Exemple de mise en œuvre

Les bibliothèques modernes gèrent les complexités des FPN en interne. L'exemple suivant montre l'utilisation de la bibliothèque Ultralytics YOLO d'Ultralytics, qui incorpore des structures pyramidales avancées pour detect objets de toutes tailles de manière transparente.

from ultralytics import YOLO

# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant