Glossar

Merkmalspyramidennetz (FPN)

Erfahren Sie, wie Feature Pyramid Networks (FPN) die Erkennung von Objekten in mehreren Maßstäben ermöglichen und so die Genauigkeit für kleine und große Objekte in YOLO11 und modernen CV-Systemen erhöhen.

Ein Feature-Pyramidennetzwerk (FPN) ist eine grundlegende Architektur in modernen Computer Vision (CV) entworfen um Objekte in verschiedenen Maßstäben mit hoher Präzision detect . Traditionelle tiefes Lernen (DL) Modelle haben oft Schwierigkeiten, kleine Objekte zu erkennen, da sie auf tiefe Schichten angewiesen sind, bei denen die räumliche Auflösung verloren geht. FPN adressiert durch den Aufbau einer pyramidalen Struktur von Merkmalskarten die kombiniert semantisch starke Merkmale mit hochauflösenden, räumlich detaillierten Merkmalen kombiniert. Dieser Aufbau fungiert als entscheidender "Hals" in vielen Architekturen zur Objekterkennungund verbindet den anfänglichen Merkmalsextraktor - bekannt als Backbone-mit den endgültigen Vorhersageschichten, den Erkennungskopf. Durch die effiziente gemeinsame Nutzung von Informationen über verschiedene Ebenen hinweg ermöglichen FPNs Modelle wie YOLO11 in der Lage, sowohl winzige, entfernte Details als auch große, auffällige Objekte in einem einzigen Bild zu erkennen.

Verstehen der Architektur

Die zentrale Innovation eines Feature-Pyramidennetzes besteht darin, dass es visuelle Informationen in drei verschiedenen Stufen verarbeitet Stufen. Diese Struktur ermöglicht es dem Netz, eine umfassende Darstellung des Bildes über mehrere Auflösungen hinweg zu erhalten ohne dabei massive Rechenkosten zu verursachen.

Bottom-Up-Weg: Diese Phase entspricht dem Vorwärtsdurchlauf eines Standard Faltungsneuronalen Netzes (CNN), wie zum Beispiel ResNet. Wenn das Bild das Netz durchläuft, nimmt die räumliche Dimension ab, während der semantische Wert (kontextuelles Verständnis) zunimmt.
Top-Down-Weg: Um die verlorenen räumlichen Details wiederherzustellen, nimmt das Netz ein Upsampling der räumlich groben aber semantisch reichhaltigen Merkmalskarten aus den tieferen Schichten. Dieser Prozess rekonstruiert effektiv höher aufgelöste Karten, die einen starken Kontext enthalten.
Seitliche Verbindungen: Der entscheidende Schritt besteht in der Zusammenführung der upgesampelten Karten aus dem Top-down-Weg mit den entsprechenden Karten aus dem Bottom-up-Signalweg. Diese lateralen Verbindungen verschmelzen den semantischen Kontext auf hoher Ebene Kontext mit den Texturen und Kanten auf niedriger Ebene, die in früheren Schichten gefunden wurden, und schaffen so eine mehrstufige Merkmalspyramide. Die Original FPN-Forschungsarbeit beschreibt detailliert, wie diese Verschmelzung die Leistung bei Benchmark-Datensätzen wie COCO.

Warum Multi-Scale Detection wichtig ist

In der realen Welt erscheinen Objekte je nach ihrer Entfernung zur Kamera in sehr unterschiedlichen Größen. A Standard-Klassifikator könnte ein Auto, das das Bild ausfüllt, leicht detect , aber einen Fußgänger im Hintergrund nicht. FPNs lösen dieses Problem, indem sie die Vorhersageaufgaben verschiedenen Ebenen der Pyramide zuweisen. Große Objekte werden auf den tiefen Merkmalskarten mit niedriger Auflösung erkannt, während kleine Objekte auf den fusionierten Merkmalskarten mit hoher Auflösung erkannt werden. Diese Fähigkeit ist wesentlich für das Erreichen hoher Genauigkeit und Rückruf in verschiedenen Umgebungen, Unterscheidung der mit FPN ausgestatteten Modelle von den älteren Einskalen-Detektoren.

Anwendungsfälle in der Praxis

Die Fähigkeit, Daten auf mehreren Ebenen zu verarbeiten, macht FPNs in verschiedenen Branchen unverzichtbar, die auf Künstliche Intelligenz (KI).

Autonome Fahrzeuge: Selbstfahrende Systeme müssen gleichzeitig nahe gelegene Fahrzeuge und entfernte Ampeln track . Ein FPN ermöglicht es dem Wahrnehmungsstapel diese Elemente innerhalb desselben Inferenzdurchlaufs zu verarbeiten, so dass sicherheitskritische in Echtzeit getroffen werden. Führende Forschungsarbeiten von Organisationen wie Waymo unterstreicht die Bedeutung eines solchen multiskaligen Verständnis für die Navigation.
Medizinische Bildanalyse: In In der diagnostischen Bildgebung erfordert die Identifizierung von Anomalien Präzision in verschiedenen Maßstäben. Ein Tumor kann eine große Masse oder ein winziges, Knötchen im Frühstadium sein. FPNs verbessern Bildsegmentierung Modelle die in der Radiologie verwendet werden, und helfen den Ärzten, Pathologien unterschiedlicher Größe in Röntgenbildern und MRT-Scans detect , wie es in Radiologie AI-Zeitschriften.

FPN vs. BiFPN

Während FPN die Merkmalsextraktion revolutionierte, haben neuere Architekturen das Konzept verfeinert. Eine bemerkenswerte Entwicklung ist das Bi-direktionale Merkmalspyramiden-Netzwerk (BiFPN), eingeführt von Google Forschung in der EfficientDet-Architektur eingeführt wurde. Im Gegensatz zu Standard-FPN, das nur in eine Richtung fließt (Top-Down), fügt BiFPN Bottom-Up-Pfade hinzu und lernt spezifische Gewichte für jede Gewichtung für jede Verbindung, wobei wichtigere Merkmale priorisiert werden. Die Standard-FPN-Designs und ihre Varianten bleiben jedoch die Grundlage für Hochleistungsmodelle wie YOLO11mit einem ausgewogenen Verhältnis zwischen Geschwindigkeit und Genauigkeit für die meisten Echtzeit-Inferenz Aufgaben.

Beispiel für die Umsetzung

Moderne Bibliotheken behandeln die Komplexität von FPNs intern. Das folgende Beispiel demonstriert die Verwendung der Ultralytics YOLO Paket, welches fortschrittliche Merkmalspyramidenstrukturen zur nahtlosen detect Objekten aller Größen enthält.

from ultralytics import YOLO

# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Merkmalspyramidennetz (FPN)

Trainieren Sie Ultralytics YOLO zur Rationalisierung von Arbeitsabläufen in verschiedenen Branchen

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Verstehen der Architektur

Warum Multi-Scale Detection wichtig ist

Anwendungsfälle in der Praxis

FPN vs. BiFPN

Beispiel für die Umsetzung

Mehr in dieser Kategorie lesen

Selbstüberwachtes Lernen zur Rauschunterdrückung: Eine schrittweise Aufschlüsselung

Zukünftige Trends in der Objekterkennung: 7 wichtige Dinge, auf die man achten sollte

Verbesserung der Re-Identifizierung von Fahrzeugen mit Ultralytics YOLO

Werden Sie Mitglied der Ultralytics