Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Merkmalspyramidennetz (FPN)

Erfahren Sie, wie Feature Pyramid Networks (FPN) die Erkennung von Objekten in mehreren Maßstäben ermöglichen und so die Genauigkeit für kleine und große Objekte in YOLO11 und modernen CV-Systemen erhöhen.

Ein Feature-Pyramidennetzwerk (FPN) ist eine Komponente in Deep-Learning-Modellen, insbesondere in Architekturen zur Objekterkennung, die die Erkennung von Objekten in verschiedenen Größenordnungen verbessern soll. In jedem Bild können Objekte je nach ihrer Größe und Entfernung zur Kamera groß oder klein erscheinen. FPN geht diese Herausforderung an, indem es effizient eine Repräsentation von Merkmalen in mehreren Maßstäben erstellt, die es einem Modell ermöglicht, gleichzeitig ein kleines, weit entferntes Auto und einen großen, nahe gelegenen Lastwagen mit hoher Genauigkeit zu erkennen. Es fungiert als Brücke oder "Hals" zwischen dem Hauptmerkmalsextraktor und der endgültigen Vorhersagekomponente eines Netzwerks.

Wie ein Feature-Pyramidennetzwerk funktioniert

Ein FPN funktioniert, indem er semantisch starke Merkmale mit niedriger Auflösung mit semantisch schwachen Merkmalen mit hoher Auflösung kombiniert. Dieser Prozess wird in der Regel durch eine Struktur mit zwei Pfaden und seitlichen Verbindungen erreicht.

  1. Bottom-up-Weg: Dies ist der standardmäßige Vorwärtsdurchlauf eines Convolutional Neural Network (CNN), der als Rückgrat des Modells dient. Wenn ein Bild aufeinanderfolgende Schichten durchläuft, nehmen die resultierenden Merkmalskarten in ihrer räumlichen Größe ab, aber in ihrer semantischen Tiefe zu, d. h. sie erfassen abstraktere Konzepte.
  2. Top-down-Weg: Das Netzwerk nimmt dann die Merkmalskarte aus der tiefsten Schicht (die zwar klein, aber informationsreich ist) und beginnt, sie hochzurechnen.
  3. Seitliche Verbindungen: Wenn der Top-Down-Weg größere Merkmalskarten rekonstruiert, werden diese mit den entsprechenden Merkmalskarten aus dem Bottom-Up-Weg zusammengeführt. Durch diese Fusion werden die aufwärts abgetasteten Schichten mit den feineren, lokalisierten Details aus den früheren Schichten angereichert. Das Ergebnis ist eine "Pyramide" von Merkmalskarten, die jeweils reich an Semantik und räumlichen Details sind und die dann dem Erkennungskopf zur Vorhersage zugeführt werden. Das Original-FPN-Forschungspapier enthält eine detaillierte technische Erklärung dieses Prozesses.

Die Rolle von FPN bei der Objekterkennung

In einem typischen Objekterkennungsmodell ist die Architektur in ein Rückgrat, einen Hals und einen Kopf aufgeteilt. Der FPN ist eine beliebte Wahl für die Halskomponente. Seine Hauptaufgabe besteht darin, die vom Backbone extrahierten Merkmale zu aggregieren, bevor sie für die endgültige Erkennungsaufgabe verwendet werden. Durch die Bereitstellung einer reichhaltigen, multiskaligen Merkmalsdarstellung ermöglichen FPNs Modellen wie YOLO11 eine robuste Leistung über einen breiten Bereich von Objektgrößen. Dieser Ansatz ist rechnerisch effizienter als die separate Verarbeitung eines Bildes mit mehreren Auflösungen, da er die in einem einzigen Vorwärtsdurchlauf des Backbone berechneten Merkmale wiederverwendet. Viele moderne Modelle nutzen dieses Konzept, wie verschiedene YOLO-Modellvergleiche zeigen.

Anwendungsfälle in der Praxis

FPNs sind ein wesentlicher Bestandteil vieler moderner Computer-Vision-Anwendungen (CV), bei denen die Erkennung von Objekten in mehreren Maßstäben entscheidend ist.

  • Autonome Fahrzeuge: Selbstfahrende Autos müssen Fußgänger, Fahrzeuge, Verkehrszeichen und Fahrbahnmarkierungen in verschiedenen Entfernungen erkennen. Ein FPN hilft dem Wahrnehmungssystem des Fahrzeugs, das in Ressourcen von Institutionen wie der Carnegie Mellon University detailliert beschrieben wird, einen entfernten Fußgänger und ein nahes Auto innerhalb desselben Rahmens zu identifizieren, was für eine sichere Navigation unerlässlich ist.
  • Medizinische Bildanalyse: In der Radiologie können FPNs bei der Analyse medizinischer Scans helfen, um Anomalien unterschiedlicher Größe zu erkennen, etwa kleine Läsionen und große Tumore. Diese Multiskalen-Fähigkeit ermöglicht eine umfassendere und genauere automatisierte Diagnostik in Bereichen wie Pathologie und Onkologie, wie in einer von den National Institutes of Health (NIH) veröffentlichten Studie dargelegt wird.

FPN vs. BiFPN

Während FPN einen bedeutenden Fortschritt darstellte, haben neuere Architekturen das Konzept weiterentwickelt. Ein bemerkenswertes Beispiel ist das Bi-direktionale Feature-Pyramidennetzwerk (BiFPN), das im EfficientDet-Papier von Google Research vorgestellt wurde. Im Gegensatz zum einfachen Top-Down-Pfad von FPN führt BiFPN bidirektionale Verbindungen ein (sowohl von oben nach unten als auch von unten nach oben) und verwendet eine gewichtete Merkmalsfusion, die es dem Netzwerk ermöglicht, die Wichtigkeit der verschiedenen Eingangsmerkmale zu lernen. Dies führt häufig zu einer besseren Leistung und Effizienz, wie Vergleiche wie EfficientDet vs. YOLO11 zeigen. Während FPN ein grundlegendes Konzept ist, stellt BiFPN einen fortschrittlicheren und optimierten Ansatz für die Merkmalsfusion auf mehreren Ebenen dar.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert