Scoprite come le reti di piramidi di funzioni (FPN) consentono il rilevamento di oggetti su più scale, aumentando la precisione di oggetti piccoli e grandi in YOLO11 e nei moderni sistemi CV.
Una Feature Pyramid Network (FPN) è un'architettura specializzata utilizzata nella visione artificiale (CV) per migliorare il rilevamento di oggetti a diverse scale. È un componente fondamentale in molte moderne architetture di rilevamento degli oggetti, progettate per superare i limiti dei rilevatori tradizionali che faticano a riconoscere oggetti di piccole dimensioni. Generando una piramide di caratteristiche multiscala da un'immagine di input a risoluzione singola, le FPN consentono ai modelli di detect strutture di grandi dimensioni che dettagli minuscoli con elevata precisione. Questa architettura si colloca tipicamente tra la backbone (che estrae le caratteristiche) e la testa di rilevamento testa di rilevamento (che prevede classi e box), arricchendo efficacemente le informazioni semantiche passate agli strati finali.
L'obiettivo principale di una FPN è quello di sfruttare la gerarchia piramidale multiscala intrinseca delle reti neurali convoluzionali profonde (CNN) riducendo al contempo il costo computazionale associato all'elaborazione separata di più scale di immagine. L'architettura consiste in tre percorsi principali che elaborano i dati visivi:
Prima dell'avvento delle FPN, i rilevatori di oggetti dovevano generalmente scegliere tra l'utilizzo del solo strato superiore (ottimo per oggetti di grandi dimensioni, ma inadeguato per quelli piccoli) o l'elaborazione di una piramide di immagini (lenta e computazionalmente onerosa). Le FPN offrono una soluzione che rappresenta il "meglio di entrambi i mondi". Questa capacità è fondamentale per l' inferenza in tempo reale, consentendo a modelli avanzati come YOLO26 e YOLO11 di mantenere frame rate elevati mentre identificano con precisione oggetti che occupano solo pochi pixel dello schermo.
La capacità di gestire dati multi-scala rende le FPN indispensabili in diversi settori che fanno affidamento su intelligenza artificiale (AI).
Mentre FPN ha rivoluzionato l'estrazione delle caratteristiche, le architetture più recenti hanno perfezionato il concetto.
Le librerie di deep learning e il Ultralytics gestiscono internamente le complessità delle FPN. L'esempio seguente mostra come caricare un modello che utilizza una struttura a piramide di caratteristiche per detect .
from ultralytics import YOLO
# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()