Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Rete piramidale di caratteristiche (FPN)

Scoprite come le reti di piramidi di funzioni (FPN) consentono il rilevamento di oggetti su più scale, aumentando la precisione di oggetti piccoli e grandi in YOLO11 e nei moderni sistemi CV.

Una rete a piramide di funzioni (FPN) è un'architettura fondamentale nelle moderne reti a piramide di funzioni. visione artificiale (CV) progettata per detect oggetti a diverse scale con un'elevata precisione. Tradizionale apprendimento profondo (DL) modelli tradizionali faticano a riconoscere oggetti di piccole dimensioni perché si basano su strati profondi che perdono risoluzione spaziale. FPN risolve questo problema questo problema costruendo una struttura piramidale di mappe di caratteristiche che combina a bassa risoluzione e semanticamente forti con caratteristiche ad alta risoluzione e spazialmente dettagliate. Questa struttura agisce come un "collo" cruciale in molte architetture di rilevamento degli oggetticollegando l'estrattore di caratteristiche iniziale, noto come il spina dorsale-agli strati di predizione finale, o testa di rilevamento. Condividendo in modo efficiente le informazioni tra i diversi livelli, le FPN consentono modelli come YOLO11 di identificare con precisione sia piccoli dettagli distanti che soggetti grandi e prominenti all'interno di una singola immagine.

Comprendere l'architettura

L'innovazione principale di una rete a piramide di caratteristiche risiede nel modo in cui elabora le informazioni visive attraverso tre fasi distinte. fasi distinte. Questa struttura permette alla rete di mantenere una ricca rappresentazione dell'immagine a più risoluzioni senza incorrere in un enorme costo computazionale.

  1. Percorso Bottom-Up: Questa fase corrisponde al passaggio in avanti di un percorso standard. rete neurale convoluzionale (CNN)come ResNet. Man mano che l'immagine passa attraverso la rete, le dimensioni spaziali diminuiscono mentre il valore semantico (comprensione contestuale) aumenta. comprensione contestuale) aumenta.
  2. Percorso top-down: Per recuperare i dettagli spaziali persi, la rete esegue un upsampling delle mappe di caratteristiche spazialmente grossolane ma semanticamente ricche di caratteristiche degli strati più profondi. Questo processo ricostruisce efficacemente mappe a più alta risoluzione più alta che contiene un forte contesto.
  3. Connessioni laterali: La fase cruciale consiste nell'unire le mappe sovracampionate del percorso top-down con le mappe corrispondenti del percorso bottom-up. con le mappe corrispondenti del percorso bottom-up. Queste connessioni laterali fondono il contesto semantico di alto livello con le texture di basso livello e i bordi contesto semantico di alto livello con le trame e i bordi di basso livello trovati nei livelli precedenti, creando una piramide di caratteristiche multiscala. Il originale documento di ricerca FPN dettagli su come questa fusione aumenta significativamente le prestazioni su set di dati di riferimento come COCO.

Perché il rilevamento multiscala è importante

Negli scenari reali, gli oggetti appaiono di dimensioni molto diverse a seconda della loro distanza dalla telecamera. A classificatore standard potrebbe individuare facilmente un'auto che riempie l'inquadratura, ma non riuscire a detect un pedone sullo sfondo. Le FPN risolvono questo problema assegnando i compiti di previsione a diversi livelli della piramide. Gli oggetti di grandi dimensioni vengono rilevati sulle a bassa risoluzione e sulle mappe di caratteristiche profonde, mentre gli oggetti piccoli vengono rilevati sulle mappe di caratteristiche ad alta risoluzione e fuse. Questa è essenziale per ottenere un'elevata precisione e richiamo in ambienti diversi, distinguendo i modelli dotati di FPN dai vecchi rilevatori a scala singola.

Applicazioni nel mondo reale

La capacità di gestire dati multi-scala rende le FPN indispensabili in diversi settori che fanno affidamento su intelligenza artificiale (AI).

  • Veicoli autonomi: I sistemi di guida autonoma devono track contemporaneamente track veicoli vicini e i semafori lontani. Un FPN consente allo stack di percezione di di percezione di elaborare questi elementi all'interno dello stesso passaggio di inferenza, assicurando che le decisioni critiche in materia di sicurezza vengano sicurezza in tempo reale. Le principali ricerche di organizzazioni come Waymo evidenziano l'importanza di questa comprensione multi-scala comprensione multi-scala per la navigazione.
  • Analisi delle immagini mediche: Nella diagnostica per immagini diagnostica per immagini, l'identificazione delle anomalie richiede una precisione su più scale. Un tumore può essere una grande massa o un piccolo nodulo, nodulo in fase iniziale. Le FPN migliorano la segmentazione delle immagini modelli di segmentazione delle immagini utilizzati in radiologia, aiutando i medici a detect patologie di varie dimensioni nelle radiografie e nelle risonanze magnetiche, come discusso in Riviste di radiologia AI.

FPN vs. BiFPN

Mentre la FPN ha rivoluzionato l'estrazione delle caratteristiche, le architetture più recenti hanno perfezionato il concetto. Un'evoluzione degna di nota è la rete piramidale di caratteristiche bidirezionale (BiFPN), introdotta da Google Research nell'architettura EfficientDet. A differenza FPN standard che scorre in un'unica direzione (top-down), BiFPN aggiunge percorsi bottom-up e apprende pesi specifici per ogni connessione, dando priorità alle caratteristiche più importanti. Tuttavia, i progetti di FPN standard e le loro varianti rimangono la base per modelli ad alte prestazioni come YOLO11che bilanciano efficacemente velocità e precisione per la maggior parte dei inferenza in tempo reale compiti di inferenza in tempo reale.

Esempio di implementazione

Le librerie moderne gestiscono internamente la complessità degli FPN. L'esempio seguente mostra l'uso della libreria Ultralytics YOLO che incorpora strutture strutture piramidali avanzate per detect senza problemi oggetti di tutte le dimensioni.

from ultralytics import YOLO

# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora