Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Rete piramidale di caratteristiche (FPN)

Scoprite come le reti di piramidi di funzioni (FPN) consentono il rilevamento di oggetti su più scale, aumentando la precisione di oggetti piccoli e grandi in YOLO11 e nei moderni sistemi CV.

Una Feature Pyramid Network (FPN) è un'architettura specializzata utilizzata nella visione artificiale (CV) per migliorare il rilevamento di oggetti a diverse scale. È un componente fondamentale in molte moderne architetture di rilevamento degli oggetti, progettate per superare i limiti dei rilevatori tradizionali che faticano a riconoscere oggetti di piccole dimensioni. Generando una piramide di caratteristiche multiscala da un'immagine di input a risoluzione singola, le FPN consentono ai modelli di detect strutture di grandi dimensioni che dettagli minuscoli con elevata precisione. Questa architettura si colloca tipicamente tra la backbone (che estrae le caratteristiche) e la testa di rilevamento testa di rilevamento (che prevede classi e box), arricchendo efficacemente le informazioni semantiche passate agli strati finali.

Comprendere l'architettura FPN

L'obiettivo principale di una FPN è quello di sfruttare la gerarchia piramidale multiscala intrinseca delle reti neurali convoluzionali profonde (CNN) riducendo al contempo il costo computazionale associato all'elaborazione separata di più scale di immagine. L'architettura consiste in tre percorsi principali che elaborano i dati visivi:

  1. Percorso bottom-up: si tratta del calcolo feed-forward della rete backbone, come ad esempio reti residue (ResNet). Man mano che l'immagine si sposta attraverso i livelli, la risoluzione spaziale diminuisce (l'immagine diventa più piccola) mentre il valore semantico (il contesto di ciò che è nell'immagine) aumenta.
  2. Percorso top-down: questa fase produce allucinazioni di caratteristiche ad alta risoluzione mediante il sovracampionamento di caratteristiche spazialmente più grossolane, ma semanticamente più forti mappe di caratteristiche da livelli piramidali superiori . Questo recupera i dettagli spaziali persi durante il processo bottom-up.
  3. Connessioni laterali: queste connessioni uniscono le mappe delle caratteristiche sovracampionate dal percorso top-down con le mappe delle caratteristiche corrispondenti dal percorso bottom-up. Questa fusione combina il contesto semantico di alto livello con le informazioni di basso livello relative alla trama e ai bordi, aumentando significativamente la precisione. Il documento di ricerca originale documento di ricerca FPN dimostra come questa tecnica raggiunga risultati all'avanguardia nei benchmark standard.

Importanza nell'IA moderna

Prima dell'avvento delle FPN, i rilevatori di oggetti dovevano generalmente scegliere tra l'utilizzo del solo strato superiore (ottimo per oggetti di grandi dimensioni, ma inadeguato per quelli piccoli) o l'elaborazione di una piramide di immagini (lenta e computazionalmente onerosa). Le FPN offrono una soluzione che rappresenta il "meglio di entrambi i mondi". Questa capacità è fondamentale per l' inferenza in tempo reale, consentendo a modelli avanzati come YOLO26 e YOLO11 di mantenere frame rate elevati mentre identificano con precisione oggetti che occupano solo pochi pixel dello schermo.

Applicazioni nel mondo reale

La capacità di gestire dati multi-scala rende le FPN indispensabili in diversi settori che fanno affidamento su intelligenza artificiale (AI).

  • Veicoli autonomi: i sistemi di guida autonoma devono track contemporaneamente i veicoli track nelle vicinanze e i semafori o i pedoni in lontananza. Gli FPN consentono allo stack di percezione di elaborare questi elementi all'interno dello stesso passaggio di inferenza, garantendo che le decisioni di sicurezza vengano prese istantaneamente. I principali set di dati come il Waymo Open Dataset sono spesso utilizzati per addestrare queste capacità multiscala .
  • Analisi delle immagini mediche: nell'imaging diagnostico, l'identificazione delle anomalie richiede precisione su tutte le scale. Un tumore può essere una massa grande o un piccolo nodulo in fase iniziale. Gli FPN migliorano la segmentazione delle immagini utilizzati in radiologia, aiutando i medici detect di varie dimensioni nelle radiografie e nelle scansioni MRI, come spesso discusso nelle riviste di radiologia AI.

FPN vs. BiFPN e PANet

Mentre FPN ha rivoluzionato l'estrazione delle caratteristiche, le architetture più recenti hanno perfezionato il concetto.

  • BiFPN (Bi-directional Feature Pyramid Network): Utilizzata in EfficientDet, introduce pesi apprendibili per apprendere l'importanza delle diverse caratteristiche di input e aggiunge percorsi bottom-up a quelli top-down esistenti.
  • PANet (Path Aggregation Network): spesso utilizzato nelle YOLO , PANet aggiunge un ulteriore percorso bottom-up alla struttura FPN per accorciare il percorso delle informazioni per le caratteristiche di basso livello, migliorando ulteriormente la precisione della localizzazione .
  • YOLO diUltralytics : le iterazioni moderne come YOLO26 utilizzano varianti avanzate di queste reti di aggregazione per massimizzare il compromesso tra velocità e precisione media (mAP).

Esempio di implementazione

Le librerie di deep learning e il Ultralytics gestiscono internamente le complessità delle FPN. L'esempio seguente mostra come caricare un modello che utilizza una struttura a piramide di caratteristiche per detect .

from ultralytics import YOLO

# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora