Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Rete piramidale di caratteristiche (FPN)

Scoprite come le reti di piramidi di funzioni (FPN) consentono il rilevamento di oggetti su più scale, aumentando la precisione di oggetti piccoli e grandi in YOLO11 e nei moderni sistemi CV.

Una Feature Pyramid Network (FPN) è un componente dei modelli di deep learning, in particolare delle architetture di rilevamento degli oggetti, progettato per migliorare il rilevamento di oggetti a varie scale. In una data immagine, gli oggetti possono apparire grandi o piccoli a seconda delle loro dimensioni e della distanza dalla telecamera. L'FPN affronta questa sfida creando in modo efficiente una rappresentazione multiscala delle caratteristiche, consentendo a un modello di riconoscere simultaneamente un'auto piccola e distante e un camion grande e vicino con un'elevata precisione. Funge da ponte, o "collo", tra l'estrattore di caratteristiche principale e il componente di previsione finale di una rete.

Come funziona una rete di piramidi di funzioni

Una FPN opera combinando caratteristiche a bassa risoluzione e semanticamente forti con caratteristiche ad alta risoluzione e semanticamente deboli. Questo processo si realizza tipicamente attraverso una struttura con due percorsi e connessioni laterali.

  1. Percorso bottom-up: È il passaggio standard di una rete neurale convoluzionale (CNN), che funge da spina dorsale del modello. Quando un'immagine passa attraverso strati successivi, le mappe di caratteristiche risultanti diminuiscono in termini di dimensioni spaziali ma aumentano in termini di profondità semantica, ossia catturano concetti più astratti.
  2. Percorso top-down: La rete prende la mappa delle caratteristiche dallo strato più profondo (che è piccolo ma ricco di informazioni) e inizia a campionarla.
  3. Connessioni laterali: Quando il percorso top-down ricostruisce mappe di caratteristiche più ampie, le fonde con le corrispondenti mappe di caratteristiche del percorso bottom-up. Questa fusione arricchisce gli strati sovracampionati con i dettagli più fini e localizzati degli strati precedenti. Il risultato è una "piramide" di mappe di caratteristiche, ciascuna ricca di semantica e di dettagli spaziali, che viene poi inviata alla testa di rilevamento per la predizione. Il documento di ricerca originale sulla FPN fornisce una spiegazione tecnica dettagliata di questo processo.

Il ruolo dell'FPN nel rilevamento degli oggetti

In un tipico modello di rilevamento degli oggetti, l'architettura è suddivisa in spina dorsale, collo e testa. L'FPN è una scelta popolare per il componente del collo. Il suo ruolo principale è quello di aggregare le caratteristiche estratte dalla spina dorsale prima che vengano utilizzate per l'attività di rilevamento finale. Fornendo una rappresentazione ricca e multi-scala delle caratteristiche, le FPN consentono a modelli come YOLO11 di funzionare in modo robusto su un'ampia gamma di dimensioni degli oggetti. Questo approccio è più efficiente dal punto di vista computazionale rispetto all'elaborazione di un'immagine a più risoluzioni separatamente, poiché riutilizza le caratteristiche calcolate nel singolo passaggio in avanti della spina dorsale. Molti modelli all'avanguardia sfruttano questo concetto, come si vede in vari confronti tra i modelli YOLO.

Applicazioni nel mondo reale

Le FPN sono parte integrante di molte applicazioni moderne di computer vision (CV) in cui il rilevamento di oggetti su più scale è fondamentale.

  • Veicoli autonomi: Le auto a guida autonoma devono rilevare pedoni, veicoli, segnali stradali e segnaletica a varie distanze. Un FPN aiuta il sistema di percezione del veicolo, dettagliato nelle risorse di istituzioni come la Carnegie Mellon University, a identificare un pedone lontano e un'auto vicina all'interno della stessa inquadratura, il che è essenziale per una navigazione sicura.
  • Analisi delle immagini mediche: In radiologia, le FPN possono aiutare ad analizzare le scansioni mediche per rilevare anomalie di diverse dimensioni, come piccole lesioni e grandi tumori. Questa capacità multi-scala consente una diagnostica automatizzata più completa e accurata in campi come la patologia e l'oncologia, come discusso in una ricerca pubblicata dal National Institutes of Health (NIH).

FPN vs. BiFPN

Mentre la FPN ha segnato un progresso significativo, nuove architetture hanno evoluto il concetto. Un esempio notevole è la Bi-directional Feature Pyramid Network (BiFPN), introdotta nel documento EfficientDet di Google Research. A differenza del semplice percorso top-down della FPN, la BiFPN introduce connessioni bidirezionali (sia top-down che bottom-up) e utilizza la fusione ponderata delle caratteristiche, consentendo alla rete di apprendere l'importanza delle diverse caratteristiche in ingresso. Questo spesso porta a migliori prestazioni ed efficienza, come evidenziato da confronti come EfficientDet vs. YOLO11. Mentre FPN è un concetto fondamentale, BiFPN rappresenta un approccio più avanzato e ottimizzato alla fusione di caratteristiche su più scale.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti