Scoprite come le reti di piramidi di funzioni (FPN) consentono il rilevamento di oggetti su più scale, aumentando la precisione di oggetti piccoli e grandi in YOLO11 e nei moderni sistemi CV.
Una rete a piramide di funzioni (FPN) è un'architettura fondamentale nelle moderne reti a piramide di funzioni. visione artificiale (CV) progettata per detect oggetti a diverse scale con un'elevata precisione. Tradizionale apprendimento profondo (DL) modelli tradizionali faticano a riconoscere oggetti di piccole dimensioni perché si basano su strati profondi che perdono risoluzione spaziale. FPN risolve questo problema questo problema costruendo una struttura piramidale di mappe di caratteristiche che combina a bassa risoluzione e semanticamente forti con caratteristiche ad alta risoluzione e spazialmente dettagliate. Questa struttura agisce come un "collo" cruciale in molte architetture di rilevamento degli oggetticollegando l'estrattore di caratteristiche iniziale, noto come il spina dorsale-agli strati di predizione finale, o testa di rilevamento. Condividendo in modo efficiente le informazioni tra i diversi livelli, le FPN consentono modelli come YOLO11 di identificare con precisione sia piccoli dettagli distanti che soggetti grandi e prominenti all'interno di una singola immagine.
L'innovazione principale di una rete a piramide di caratteristiche risiede nel modo in cui elabora le informazioni visive attraverso tre fasi distinte. fasi distinte. Questa struttura permette alla rete di mantenere una ricca rappresentazione dell'immagine a più risoluzioni senza incorrere in un enorme costo computazionale.
Negli scenari reali, gli oggetti appaiono di dimensioni molto diverse a seconda della loro distanza dalla telecamera. A classificatore standard potrebbe individuare facilmente un'auto che riempie l'inquadratura, ma non riuscire a detect un pedone sullo sfondo. Le FPN risolvono questo problema assegnando i compiti di previsione a diversi livelli della piramide. Gli oggetti di grandi dimensioni vengono rilevati sulle a bassa risoluzione e sulle mappe di caratteristiche profonde, mentre gli oggetti piccoli vengono rilevati sulle mappe di caratteristiche ad alta risoluzione e fuse. Questa è essenziale per ottenere un'elevata precisione e richiamo in ambienti diversi, distinguendo i modelli dotati di FPN dai vecchi rilevatori a scala singola.
La capacità di gestire dati multi-scala rende le FPN indispensabili in diversi settori che fanno affidamento su intelligenza artificiale (AI).
Mentre la FPN ha rivoluzionato l'estrazione delle caratteristiche, le architetture più recenti hanno perfezionato il concetto. Un'evoluzione degna di nota è la rete piramidale di caratteristiche bidirezionale (BiFPN), introdotta da Google Research nell'architettura EfficientDet. A differenza FPN standard che scorre in un'unica direzione (top-down), BiFPN aggiunge percorsi bottom-up e apprende pesi specifici per ogni connessione, dando priorità alle caratteristiche più importanti. Tuttavia, i progetti di FPN standard e le loro varianti rimangono la base per modelli ad alte prestazioni come YOLO11che bilanciano efficacemente velocità e precisione per la maggior parte dei inferenza in tempo reale compiti di inferenza in tempo reale.
Le librerie moderne gestiscono internamente la complessità degli FPN. L'esempio seguente mostra l'uso della libreria Ultralytics YOLO che incorpora strutture strutture piramidali avanzate per detect senza problemi oggetti di tutte le dimensioni.
from ultralytics import YOLO
# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()