Scoprite come le reti di piramidi di funzioni (FPN) consentono il rilevamento di oggetti su più scale, aumentando la precisione di oggetti piccoli e grandi in YOLO11 e nei moderni sistemi CV.
Una Feature Pyramid Network (FPN) è un componente dei modelli di deep learning, in particolare delle architetture di rilevamento degli oggetti, progettato per migliorare il rilevamento di oggetti a varie scale. In una data immagine, gli oggetti possono apparire grandi o piccoli a seconda delle loro dimensioni e della distanza dalla telecamera. L'FPN affronta questa sfida creando in modo efficiente una rappresentazione multiscala delle caratteristiche, consentendo a un modello di riconoscere simultaneamente un'auto piccola e distante e un camion grande e vicino con un'elevata precisione. Funge da ponte, o "collo", tra l'estrattore di caratteristiche principale e il componente di previsione finale di una rete.
Una FPN opera combinando caratteristiche a bassa risoluzione e semanticamente forti con caratteristiche ad alta risoluzione e semanticamente deboli. Questo processo si realizza tipicamente attraverso una struttura con due percorsi e connessioni laterali.
In un tipico modello di rilevamento degli oggetti, l'architettura è suddivisa in spina dorsale, collo e testa. L'FPN è una scelta popolare per il componente del collo. Il suo ruolo principale è quello di aggregare le caratteristiche estratte dalla spina dorsale prima che vengano utilizzate per l'attività di rilevamento finale. Fornendo una rappresentazione ricca e multi-scala delle caratteristiche, le FPN consentono a modelli come YOLO11 di funzionare in modo robusto su un'ampia gamma di dimensioni degli oggetti. Questo approccio è più efficiente dal punto di vista computazionale rispetto all'elaborazione di un'immagine a più risoluzioni separatamente, poiché riutilizza le caratteristiche calcolate nel singolo passaggio in avanti della spina dorsale. Molti modelli all'avanguardia sfruttano questo concetto, come si vede in vari confronti tra i modelli YOLO.
Le FPN sono parte integrante di molte applicazioni moderne di computer vision (CV) in cui il rilevamento di oggetti su più scale è fondamentale.
Mentre la FPN ha segnato un progresso significativo, nuove architetture hanno evoluto il concetto. Un esempio notevole è la Bi-directional Feature Pyramid Network (BiFPN), introdotta nel documento EfficientDet di Google Research. A differenza del semplice percorso top-down della FPN, la BiFPN introduce connessioni bidirezionali (sia top-down che bottom-up) e utilizza la fusione ponderata delle caratteristiche, consentendo alla rete di apprendere l'importanza delle diverse caratteristiche in ingresso. Questo spesso porta a migliori prestazioni ed efficienza, come evidenziato da confronti come EfficientDet vs. YOLO11. Mentre FPN è un concetto fondamentale, BiFPN rappresenta un approccio più avanzato e ottimizzato alla fusione di caratteristiche su più scale.