Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Merkmalspyramidennetz (FPN)

Erfahren Sie, wie Feature Pyramid Networks (FPN) die Erkennung von Objekten in mehreren Maßstäben ermöglichen und so die Genauigkeit für kleine und große Objekte in YOLO11 und modernen CV-Systemen erhöhen.

Ein Feature Pyramid Network (FPN) ist eine spezielle Architektur, die in der Computer Vision (CV) zur Verbesserung der Objekterkennung in verschiedenen Maßstäben eingesetzt wird. Es ist eine wichtige Komponente in vielen modernen Objekterkennungsarchitekturen, die entwickelt wurden, um die Einschränkungen herkömmlicher Detektoren zu überwinden, die Schwierigkeiten haben, kleine Objekte zu erkennen. Durch die Erzeugung einer mehrskaligen Merkmalspyramide aus einem Eingabebild mit einer einzigen Auflösung ermöglichen FPNs Modellen detect großer Strukturen als auch winziger Details mit hoher Genauigkeit. Diese Architektur befindet sich in der Regel zwischen dem Backbone (der Merkmale extrahiert) und dem Erkennungskopf (der Klassen und Boxen vorhersagt) und bereichert so effektiv die semantischen Informationen, die an die letzten Schichten weitergegeben werden.

Die FPN-Architektur verstehen

Das primäre Ziel eines FPN ist es, die inhärente multiskalige, pyramidenförmige Hierarchie tiefer Convolutional Neural Networks (CNNs) zu nutzen und gleichzeitig den Rechenaufwand zu reduzieren, der mit der separaten Verarbeitung mehrerer Bildskalen verbunden ist. Die Architektur besteht aus drei Hauptpfaden, die visuelle Daten verarbeiten:

  1. Bottom-Up-Pfad: Hierbei handelt es sich um die Feedforward-Berechnung des Backbone-Netzwerks, wie beispielsweise Residual Networks (ResNet). Während sich das Bild durch die Schichten bewegt, nimmt die räumliche Auflösung ab (das Bild wird kleiner), während der semantische Wert (der Kontext dessen, was sich im Bild befindet) zunimmt.
  2. Top-Down-Pfad: In dieser Phase werden Merkmale mit höherer Auflösung durch Upsampling von räumlich groberen, aber semantisch stärkeren Feature-Maps von höheren Pyramidenebenen auf. Dadurch werden die räumlichen Details wiederhergestellt, die während des Bottom-Up-Prozesses verloren gegangen sind.
  3. Laterale Verbindungen: Diese Verbindungen führen die hochskalierten Merkmalskarten aus dem Top-Down-Pfad mit den entsprechenden Merkmalskarten aus dem Bottom-Up-Pfad zusammen. Diese Fusion kombiniert hochrangigen semantischen Kontext mit niedrigrangigen Textur- und Kanteninformationen und erhöht so die Präzision. Die ursprüngliche FPN-Forschungsarbeit zeigt, wie diese Technik bei Standard-Benchmarks Ergebnisse auf dem neuesten Stand der Technik erzielt.

Bedeutung in der modernen KI

Vor FPNs mussten Objektdetektoren im Allgemeinen zwischen der Verwendung nur der obersten Schicht (gut für große Objekte, schlecht für kleine) oder der Verarbeitung einer Bildpyramide (langsam und rechenintensiv) wählen. FPNs bieten eine Lösung, die „das Beste aus beiden Welten“ vereint. Diese Fähigkeit ist für die Echtzeit-Inferenz, da sie fortschrittliche Modelle wie YOLO26 und YOLO11 hohe Bildraten beibehalten und gleichzeitig Objekte, die nur wenige Pixel des Bildschirms einnehmen, genau identifizieren können.

Anwendungsfälle in der Praxis

Die Fähigkeit, Daten auf mehreren Ebenen zu verarbeiten, macht FPNs in verschiedenen Branchen unverzichtbar, die auf Künstliche Intelligenz (KI).

  • Autonome Fahrzeuge: Selbstfahrende Systeme müssen gleichzeitig track Fahrzeuge in der Nähe und entfernte Ampeln oder Fußgänger track . FPNs ermöglichen es dem Wahrnehmungsstack, diese Elemente innerhalb desselben Inferenzdurchgangs zu verarbeiten, wodurch sichergestellt wird, dass Sicherheitsentscheidungen sofort getroffen werden. Führende Datensätze wie der Waymo Open Dataset werden häufig zum Trainieren dieser multiskaligen Fähigkeiten verwendet.
  • Medizinische Bildanalyse: In der diagnostischen Bildgebung erfordert die Identifizierung von Anomalien Präzision über alle Maßstäbe hinweg. Ein Tumor kann eine große Masse oder ein winziger Knoten im Frühstadium sein. FPNs verbessern die Bildsegmentierungsmodelle Modelle in der Radiologie und helfen Ärzten dabei, detect unterschiedlicher Größe in Röntgenbildern und MRT-Scans detect , wie häufig in Fachzeitschriften für Radiologie-KI.

FPN vs. BiFPN und PANet

Während FPN die Merkmalsextraktion revolutionierte, haben neuere Architekturen das Konzept weiterentwickelt.

  • BiFPN (Bi-directional Feature Pyramid Network): Wird in EfficientDet verwendet und führt lernbare Gewichte ein, um die Bedeutung verschiedener Eingabefunktionen zu erlernen und den bestehenden Top-Down-Pfaden Bottom-Up-Pfade hinzuzufügen.
  • PANet (Path Aggregation Network): PANet wird häufig in YOLO verwendet und fügt der FPN-Struktur einen zusätzlichen Bottom-up-Pfad hinzu , um den Informationspfad für Low-Level-Merkmale zu verkürzen und die Lokalisierungsgenauigkeit weiter zu verbessern .
  • Ultralytics YOLO : Moderne Iterationen wie YOLO26 nutzen fortschrittliche Varianten dieser Aggregationsnetzwerke, um den Kompromiss zwischen Geschwindigkeit und mittleren durchschnittlichen Präzision (mAP).

Beispiel für die Umsetzung

Deep-Learning-Bibliotheken und das Ultralytics bewältigen die Komplexität von FPNs intern. Das folgende Beispiel zeigt, wie ein Modell geladen wird, das eine Feature-Pyramidenstruktur zur detect nutzt.

from ultralytics import YOLO

# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten