Erfahren Sie, wie Feature Pyramid Networks (FPN) die Erkennung von Objekten in mehreren Maßstäben ermöglichen und so die Genauigkeit für kleine und große Objekte in YOLO11 und modernen CV-Systemen erhöhen.
Ein Feature-Pyramidennetzwerk (FPN) ist eine Komponente in Deep-Learning-Modellen, insbesondere in Architekturen zur Objekterkennung, die die Erkennung von Objekten in verschiedenen Größenordnungen verbessern soll. In jedem Bild können Objekte je nach ihrer Größe und Entfernung zur Kamera groß oder klein erscheinen. FPN geht diese Herausforderung an, indem es effizient eine Repräsentation von Merkmalen in mehreren Maßstäben erstellt, die es einem Modell ermöglicht, gleichzeitig ein kleines, weit entferntes Auto und einen großen, nahe gelegenen Lastwagen mit hoher Genauigkeit zu erkennen. Es fungiert als Brücke oder "Hals" zwischen dem Hauptmerkmalsextraktor und der endgültigen Vorhersagekomponente eines Netzwerks.
Ein FPN funktioniert, indem er semantisch starke Merkmale mit niedriger Auflösung mit semantisch schwachen Merkmalen mit hoher Auflösung kombiniert. Dieser Prozess wird in der Regel durch eine Struktur mit zwei Pfaden und seitlichen Verbindungen erreicht.
In einem typischen Objekterkennungsmodell ist die Architektur in ein Rückgrat, einen Hals und einen Kopf aufgeteilt. Der FPN ist eine beliebte Wahl für die Halskomponente. Seine Hauptaufgabe besteht darin, die vom Backbone extrahierten Merkmale zu aggregieren, bevor sie für die endgültige Erkennungsaufgabe verwendet werden. Durch die Bereitstellung einer reichhaltigen, multiskaligen Merkmalsdarstellung ermöglichen FPNs Modellen wie YOLO11 eine robuste Leistung über einen breiten Bereich von Objektgrößen. Dieser Ansatz ist rechnerisch effizienter als die separate Verarbeitung eines Bildes mit mehreren Auflösungen, da er die in einem einzigen Vorwärtsdurchlauf des Backbone berechneten Merkmale wiederverwendet. Viele moderne Modelle nutzen dieses Konzept, wie verschiedene YOLO-Modellvergleiche zeigen.
FPNs sind ein wesentlicher Bestandteil vieler moderner Computer-Vision-Anwendungen (CV), bei denen die Erkennung von Objekten in mehreren Maßstäben entscheidend ist.
Während FPN einen bedeutenden Fortschritt darstellte, haben neuere Architekturen das Konzept weiterentwickelt. Ein bemerkenswertes Beispiel ist das Bi-direktionale Feature-Pyramidennetzwerk (BiFPN), das im EfficientDet-Papier von Google Research vorgestellt wurde. Im Gegensatz zum einfachen Top-Down-Pfad von FPN führt BiFPN bidirektionale Verbindungen ein (sowohl von oben nach unten als auch von unten nach oben) und verwendet eine gewichtete Merkmalsfusion, die es dem Netzwerk ermöglicht, die Wichtigkeit der verschiedenen Eingangsmerkmale zu lernen. Dies führt häufig zu einer besseren Leistung und Effizienz, wie Vergleiche wie EfficientDet vs. YOLO11 zeigen. Während FPN ein grundlegendes Konzept ist, stellt BiFPN einen fortschrittlicheren und optimierten Ansatz für die Merkmalsfusion auf mehreren Ebenen dar.