Erfahren Sie, wie Feature Pyramid Networks (FPN) die Erkennung von Objekten in mehreren Maßstäben ermöglichen und so die Genauigkeit für kleine und große Objekte in YOLO11 und modernen CV-Systemen erhöhen.
Ein Feature Pyramid Network (FPN) ist eine spezielle Architektur, die in der Computer Vision (CV) zur Verbesserung der Objekterkennung in verschiedenen Maßstäben eingesetzt wird. Es ist eine wichtige Komponente in vielen modernen Objekterkennungsarchitekturen, die entwickelt wurden, um die Einschränkungen herkömmlicher Detektoren zu überwinden, die Schwierigkeiten haben, kleine Objekte zu erkennen. Durch die Erzeugung einer mehrskaligen Merkmalspyramide aus einem Eingabebild mit einer einzigen Auflösung ermöglichen FPNs Modellen detect großer Strukturen als auch winziger Details mit hoher Genauigkeit. Diese Architektur befindet sich in der Regel zwischen dem Backbone (der Merkmale extrahiert) und dem Erkennungskopf (der Klassen und Boxen vorhersagt) und bereichert so effektiv die semantischen Informationen, die an die letzten Schichten weitergegeben werden.
Das primäre Ziel eines FPN ist es, die inhärente multiskalige, pyramidenförmige Hierarchie tiefer Convolutional Neural Networks (CNNs) zu nutzen und gleichzeitig den Rechenaufwand zu reduzieren, der mit der separaten Verarbeitung mehrerer Bildskalen verbunden ist. Die Architektur besteht aus drei Hauptpfaden, die visuelle Daten verarbeiten:
Vor FPNs mussten Objektdetektoren im Allgemeinen zwischen der Verwendung nur der obersten Schicht (gut für große Objekte, schlecht für kleine) oder der Verarbeitung einer Bildpyramide (langsam und rechenintensiv) wählen. FPNs bieten eine Lösung, die „das Beste aus beiden Welten“ vereint. Diese Fähigkeit ist für die Echtzeit-Inferenz, da sie fortschrittliche Modelle wie YOLO26 und YOLO11 hohe Bildraten beibehalten und gleichzeitig Objekte, die nur wenige Pixel des Bildschirms einnehmen, genau identifizieren können.
Die Fähigkeit, Daten auf mehreren Ebenen zu verarbeiten, macht FPNs in verschiedenen Branchen unverzichtbar, die auf Künstliche Intelligenz (KI).
Während FPN die Merkmalsextraktion revolutionierte, haben neuere Architekturen das Konzept weiterentwickelt.
Deep-Learning-Bibliotheken und das Ultralytics bewältigen die Komplexität von FPNs intern. Das folgende Beispiel zeigt, wie ein Modell geladen wird, das eine Feature-Pyramidenstruktur zur detect nutzt.
from ultralytics import YOLO
# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()