Erfahren Sie, wie Feature Pyramid Networks (FPN) die Erkennung von Objekten in mehreren Maßstäben ermöglichen und so die Genauigkeit für kleine und große Objekte in YOLO11 und modernen CV-Systemen erhöhen.
Ein Feature-Pyramidennetzwerk (FPN) ist eine grundlegende Architektur in modernen Computer Vision (CV) entworfen um Objekte in verschiedenen Maßstäben mit hoher Präzision detect . Traditionelle tiefes Lernen (DL) Modelle haben oft Schwierigkeiten, kleine Objekte zu erkennen, da sie auf tiefe Schichten angewiesen sind, bei denen die räumliche Auflösung verloren geht. FPN adressiert durch den Aufbau einer pyramidalen Struktur von Merkmalskarten die kombiniert semantisch starke Merkmale mit hochauflösenden, räumlich detaillierten Merkmalen kombiniert. Dieser Aufbau fungiert als entscheidender "Hals" in vielen Architekturen zur Objekterkennungund verbindet den anfänglichen Merkmalsextraktor - bekannt als Backbone-mit den endgültigen Vorhersageschichten, den Erkennungskopf. Durch die effiziente gemeinsame Nutzung von Informationen über verschiedene Ebenen hinweg ermöglichen FPNs Modelle wie YOLO11 in der Lage, sowohl winzige, entfernte Details als auch große, auffällige Objekte in einem einzigen Bild zu erkennen.
Die zentrale Innovation eines Feature-Pyramidennetzes besteht darin, dass es visuelle Informationen in drei verschiedenen Stufen verarbeitet Stufen. Diese Struktur ermöglicht es dem Netz, eine umfassende Darstellung des Bildes über mehrere Auflösungen hinweg zu erhalten ohne dabei massive Rechenkosten zu verursachen.
In der realen Welt erscheinen Objekte je nach ihrer Entfernung zur Kamera in sehr unterschiedlichen Größen. A Standard-Klassifikator könnte ein Auto, das das Bild ausfüllt, leicht detect , aber einen Fußgänger im Hintergrund nicht. FPNs lösen dieses Problem, indem sie die Vorhersageaufgaben verschiedenen Ebenen der Pyramide zuweisen. Große Objekte werden auf den tiefen Merkmalskarten mit niedriger Auflösung erkannt, während kleine Objekte auf den fusionierten Merkmalskarten mit hoher Auflösung erkannt werden. Diese Fähigkeit ist wesentlich für das Erreichen hoher Genauigkeit und Rückruf in verschiedenen Umgebungen, Unterscheidung der mit FPN ausgestatteten Modelle von den älteren Einskalen-Detektoren.
Die Fähigkeit, Daten auf mehreren Ebenen zu verarbeiten, macht FPNs in verschiedenen Branchen unverzichtbar, die auf Künstliche Intelligenz (KI).
Während FPN die Merkmalsextraktion revolutionierte, haben neuere Architekturen das Konzept verfeinert. Eine bemerkenswerte Entwicklung ist das Bi-direktionale Merkmalspyramiden-Netzwerk (BiFPN), eingeführt von Google Forschung in der EfficientDet-Architektur eingeführt wurde. Im Gegensatz zu Standard-FPN, das nur in eine Richtung fließt (Top-Down), fügt BiFPN Bottom-Up-Pfade hinzu und lernt spezifische Gewichte für jede Gewichtung für jede Verbindung, wobei wichtigere Merkmale priorisiert werden. Die Standard-FPN-Designs und ihre Varianten bleiben jedoch die Grundlage für Hochleistungsmodelle wie YOLO11mit einem ausgewogenen Verhältnis zwischen Geschwindigkeit und Genauigkeit für die meisten Echtzeit-Inferenz Aufgaben.
Moderne Bibliotheken behandeln die Komplexität von FPNs intern. Das folgende Beispiel demonstriert die Verwendung der Ultralytics YOLO Paket, welches fortschrittliche Merkmalspyramidenstrukturen zur nahtlosen detect Objekten aller Größen enthält.
from ultralytics import YOLO
# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()