Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Come migliorare mAP del modello mAP oggetti di piccole dimensioni: una guida rapida

Scopri come migliorare mAP del modello mAP oggetti di piccole dimensioni con consigli pratici su qualità dei dati, potenziamento, strategie di formazione, valutazione e implementazione.

Con la continua crescita dell'adozione dell'intelligenza artificiale (AI), dell'apprendimento automatico e della visione artificiale, i sistemi di rilevamento degli oggetti vengono utilizzati ovunque, dalle telecamere intelligenti per il traffico ai droni e agli strumenti di analisi dei dati di vendita al dettaglio. Spesso questi sistemi devono essere in grado di detect di tutte le dimensioni, che si tratti di un grosso camion vicino alla telecamera o di un piccolo pedone in lontananza.

In genere, individuare oggetti grandi e chiaramente visibili è più semplice. Al contrario, rilevare oggetti piccoli è più difficile.

Quando un oggetto occupa solo una piccola parte dell'immagine, le informazioni visive su cui lavorare sono molto limitate. Un pedone lontano in un feed sul traffico o un piccolo veicolo ripreso da una vista aerea potrebbero contenere solo pochi pixel, ma tali pixel possono trasportare informazioni fondamentali. 

I modelli di visione artificiale comeYOLO Ultralytics si basano su modelli visivi per riconoscere gli oggetti e, quando tali modelli sono limitati o poco chiari, le prestazioni ne risentono. Durante l'elaborazione possono andare persi dettagli importanti, rendendo le previsioni più sensibili agli errori di localizzazione. Anche un leggero spostamento del riquadro di delimitazione può trasformare un rilevamento corretto in uno mancato.

Questo divario diventa evidente quando si esamina la performance dei modelli. La maggior parte dei modelli di rilevamento e segmentazione gestisce bene gli oggetti di medie e grandi dimensioni, ma gli oggetti piccoli spesso riducono la precisione complessiva.

Le prestazioni del deep learning vengono solitamente misurate utilizzando la precisione media( mAP). Questo parametro riflette sia l'accuratezza dei rilevamenti sia la corrispondenza tra i riquadri previsti e gli oggetti reali. 

Combina la precisione, che indica quanti oggetti previsti sono corretti, e il richiamo, che indica quanti oggetti effettivi vengono rilevati con successo, attraverso diversi livelli di confidenza e soglie di Intersection over Union, o IoU una metrica che misura quanto il riquadro di delimitazione previsto si sovrappone al riquadro di verità di base).

In precedenza abbiamo esaminato il rilevamento di oggetti di piccole dimensioni e il motivo per cui rappresenta un problema così complesso per i modelli di visione artificiale. In questo articolo partiremo da quelle basi e ci concentreremo su come migliorare mAP sono coinvolti oggetti di piccole dimensioni. Cominciamo!

Perché gli oggetti piccoli sono più difficili da detect?

Quando si tratta di applicazioni che coinvolgono rilevatori di oggetti, un oggetto piccolo è definito dallo spazio che occupa in un'immagine, non necessariamente da quanto appare piccolo all'occhio umano. Se occupa solo una piccola parte dell'immagine, contiene pochissime informazioni visive, il che rende più difficile per un algoritmo di visione artificiale detect .

Fig. 1. Immagini di esempio che mostrano piccoli oggetti che occupano aree pixel limitate (Fonte)

Con un numero inferiore di pixel a disposizione, dettagli importanti come bordi, forme e texture possono risultare poco chiari o andare facilmente persi. Man mano che l'immagine viene elaborata dal modello, viene ridimensionata e semplificata per evidenziare i modelli utili. 

Sebbene ciò aiuti il modello a comprendere la scena nel suo complesso, può anche ridurre ulteriormente i dettagli più fini. Per gli oggetti di piccole dimensioni, tali dettagli sono spesso essenziali per un rilevamento corretto.

Queste sfide diventano ancora più evidenti quando si esaminano i parametri di valutazione. Gli oggetti di piccole dimensioni sono particolarmente sensibili agli errori di localizzazione. Anche un riquadro di delimitazione leggermente disallineato può scendere al di sotto della soglia richiesta di Intersection over Union, o IoU. 

Quando ciò accade, una previsione che sembra ragionevole può essere considerata errata. Ciò riduce sia la precisione che il richiamo, il che alla fine riduce la precisione media, o mAP.

Poiché questi fattori sono strettamente correlati, per migliorare le prestazioni è spesso necessario considerare il sistema nel suo complesso. Ciò significa bilanciare attentamente la risoluzione delle immagini, l'estrazione delle caratteristiche, la progettazione dei modelli e le impostazioni di valutazione, in modo da preservare e interpretare al meglio i piccoli dettagli visivi.

L'importanza della qualità dei set di dati e delle annotazioni

Quando si tratta di rilevare oggetti di piccole dimensioni, la qualità di un set di dati spesso fa la differenza in termini di prestazioni. Gli oggetti di piccole dimensioni occupano solo una minima parte dell'immagine, il che significa che le informazioni visive disponibili per l'apprendimento del modello sono molto scarse. Per questo motivo, i dati di addestramento assumono un'importanza particolare. Se il set di dati non include esempi sufficientemente chiari e rappresentativi, il modello di rilevamento degli oggetti avrà difficoltà a riconoscere modelli coerenti.

I set di dati che funzionano bene per il rilevamento di oggetti di piccole dimensioni contengono solitamente immagini ad alta risoluzione, frequenti apparizioni di piccoli bersagli e condizioni visive costanti. Sebbene COCO generici come COCO siano utili punti di partenza, spesso non corrispondono alla scala, alla densità o al contesto di specifici casi d'uso reali. In questi casi, per migliorare le prestazioni del modello è necessario raccogliere dati di addestramento specifici per il dominio.

Anche la qualità delle annotazioni gioca un ruolo fondamentale. Le annotazioni stabiliscono la verità di base specificando le etichette corrette degli oggetti e le posizioni dei riquadri di delimitazione che il modello impara a prevedere.

Per gli oggetti di piccole dimensioni, i riquadri di delimitazione devono essere disegnati con cura e in modo coerente. Anche lievi differenze nel posizionamento dei riquadri possono influire in modo significativo sulla precisione della localizzazione, poiché gli oggetti di piccole dimensioni sono molto sensibili agli spostamenti a livello di pixel.

Annotazioni scadenti o incoerenti possono ridurre significativamente mAP. Se gli oggetti sono etichettati in modo errato, il modello apprende modelli scorretti, il che può aumentare i falsi positivi. 

Se gli oggetti compaiono nell'immagine ma non sono presenti nella realtà, i rilevamenti corretti potrebbero essere considerati falsi positivi durante la valutazione. Entrambe le situazioni riducono le prestazioni complessive.

È interessante notare che recenti ricerche indicano che la precisione media per oggetti di piccole dimensioni rimane spesso compresa tra il 20% e il 40% nei benchmark standard, un valore significativamente inferiore rispetto a quello registrato per oggetti di dimensioni maggiori. Questo divario evidenzia l'importanza della progettazione dei set di dati e della coerenza delle annotazioni nell'accuratezza complessiva del rilevamento.

L'aumento dei dati può svolgere un ruolo fondamentale nel miglioramento dell'accuratezza.

Con una migliore comprensione dell'importanza della qualità dei set di dati e della coerenza delle annotazioni, vediamo come un modello di rilevamento degli oggetti può apprendere in modo più efficace dai dati esistenti. Anche quando raccogliere immagini aggiuntive è difficile o costoso, esistono comunque modi per migliorare le prestazioni sfruttando al meglio i dati già disponibili.

Uno degli approcci più pratici è l'aumento dei dati. Esso svolge un ruolo particolarmente importante nel rilevamento di oggetti di piccole dimensioni, poiché questi ultimi forniscono meno indizi visivi da cui il modello può apprendere. Introducendo variazioni controllate durante l'addestramento, l'aumento dei dati aiuta il modello a generalizzare meglio senza richiedere la raccolta di nuovi dati.

Un aumento efficace dei dati si concentra sul mantenere chiaramente visibili gli oggetti di piccole dimensioni. Tecniche come il ridimensionamento controllato, il ritaglio leggero e la suddivisione dell'immagine in riquadri possono far risaltare maggiormente gli oggetti di piccole dimensioni, preservandone al contempo la forma e l'aspetto. L'obiettivo è aiutare il modello a vedere gli oggetti di piccole dimensioni più spesso e in condizioni leggermente diverse, senza modificarne l'aspetto nelle situazioni reali. 

Tuttavia, l'aumento deve essere applicato con cautela. Alcune trasformazioni possono ridurre la visibilità di oggetti piccoli o modificarne l'aspetto in modi che difficilmente si verificano nei dati reali. Quando ciò accade, il modello potrebbe avere difficoltà a apprendere i confini precisi degli oggetti.

Aumento dei dati più intelligente con l'IA generativa

Un altro tipo interessante di aumento dei dati che sta diventando sempre più popolare è l'uso dell'IA generativa per creare dati di addestramento sintetici. Invece di affidarsi a immagini raccolte e etichettate manualmente, i team possono ora generare scene realistiche che simulano ambienti specifici, dimensioni degli oggetti, condizioni di illuminazione e variazioni dello sfondo.

Fig. 2. Immagini aeree sintetiche utilizzate per l'aumento dei dati (Fonte)

Questo approccio è particolarmente utile per il rilevamento di oggetti di piccole dimensioni, dove può essere difficile acquisire esempi reali in modo coerente. Controllando la modalità di visualizzazione degli oggetti di piccole dimensioni nelle immagini sintetiche, ad esempio regolandone la scala, la densità e la posizione, è possibile esporre i modelli a una gamma più ampia di scenari di addestramento. 

Se combinato con attenzione con dati reali, l'aumento sintetico può migliorare la robustezza del modello, ridurre i costi di raccolta dei dati e supportare miglioramenti delle prestazioni più mirati.

Scelte di addestramento del modello che possono influire mAP di oggetti piccoli

Oltre alla qualità dei set di dati e alla coerenza delle annotazioni, anche le scelte relative all'addestramento dei modelli hanno un forte impatto sulle prestazioni di rilevamento degli oggetti di piccole dimensioni.

Ecco alcune delle principali strategie di formazione da prendere in considerazione:

  • Inizia con modelli pre-addestrati: un modello pre-addestrato, come Ultralytics , ha già appreso modelli visivi generali da grandi set di dati di immagini. Ciò fornisce un solido punto di partenza rispetto all'addestramento da zero, particolarmente utile quando si rilevano oggetti piccoli con dati limitati.
  • Utilizza il transfer learning in modo strategico: il transfer learning consiste nell'adattare un modello pre-addestrato al tuo specifico set di dati. Aiuta il modello a concentrarsi sui tuoi piccoli oggetti riducendo al contempo l'overfitting (memorizzazione dei dati di addestramento invece dell'apprendimento di modelli generali).
  • Affrontare lo squilibrio tra le classi: se gli oggetti piccoli appaiono meno frequentemente di quelli più grandi, il modello potrebbe dare priorità all'apprendimento degli oggetti più grandi. Tecniche come la ponderazione delle classi o le strategie di campionamento aiutano a garantire che gli oggetti piccoli non vengano ignorati.
  • Ottimizza IoU di confidenza e IoU : gli oggetti di piccole dimensioni sono sensibili ai piccoli errori di localizzazione. La regolazione di queste soglie consente di valutare e interpretare meglio le prestazioni degli oggetti di piccole dimensioni durante la convalida e l'inferenza.

Considerazioni sull'architettura del modello per il rilevamento di oggetti di piccole dimensioni

Sebbene sia possibile utilizzare un modello di rilevamento oggetti generico per attività relative a oggetti di piccole dimensioni, esistono anche architetture di modelli progettate specificamente per migliorare il rilevamento di oggetti di piccole dimensioni. Ad esempio, esistono varianti del modello P2 di Ultralytics YOLOv8 ottimizzate per preservare i dettagli spaziali più fini.

YOLOv8 le immagini su più scale riducendole gradualmente man mano che avanzano nella rete. Questo aiuta il modello a comprendere la scena nel suo complesso, ma riduce anche i dettagli più fini.

Quando un oggetto è già molto piccolo, durante questo processo possono andare perse importanti informazioni visive. La variante P2 di Ultralytics YOLOv8 questo problema utilizzando un passo di 2 nella sua piramide delle caratteristiche. 

Una piramide delle caratteristiche è la parte del modello che analizza l'immagine a più risoluzioni interne in modo da poter detect di diverse dimensioni. Con un passo di 2, l'immagine viene ridotta più gradualmente in questa fase, consentendo di preservare una maggiore quantità di dettagli a livello di pixel originali. 

Poiché vengono conservati maggiori dettagli spaziali, gli oggetti di piccole dimensioni mantengono una struttura più visibile all'interno della rete. Ciò rende più facile per il modello localizzare e detect che occupano solo pochi pixel, contribuendo a migliorare mAP degli oggetti di piccole dimensioni.

Valutazione basata sulle dimensioni per il rilevamento di oggetti di piccole dimensioni

Sebbene la precisione media riassuma le prestazioni complessive del modello, non sempre mostra quanto bene un modello gestisca oggetti di dimensioni diverse. Per gli oggetti di piccole dimensioni, le prestazioni sono spesso limitate dall'accuratezza della localizzazione piuttosto che dalla sola classificazione, il che significa che lievi spostamenti del riquadro di delimitazione possono influire in modo significativo sui risultati.

In altre parole, il modello può identificare correttamente la classe dell'oggetto, ma se il riquadro di delimitazione previsto è leggermente disallineato, il rilevamento può comunque essere considerato errato. Poiché gli oggetti di piccole dimensioni coprono solo un numero limitato di pixel, anche uno spostamento minimo nella posizione del riquadro può ridurre significativamente la sovrapposizione tra il riquadro previsto e la realtà. Di conseguenza, i punteggi di valutazione possono diminuire anche quando l'oggetto è stato identificato correttamente.

Fig. 3. Valutare il rilevamento di oggetti di piccole dimensioni può essere complicato (Fonte)

Un approccio più informativo consiste nel valutare le prestazioni in base alle dimensioni degli oggetti. I benchmark più diffusi riportano la precisione media separatamente per oggetti piccoli, medi e grandi. 

Questa suddivisione specifica per dimensione fornisce una visione più chiara dei punti di forza e delle difficoltà del modello. In pratica, AP per oggetti di piccole dimensioni spesso è inferiore mAP complessivo, evidenziando difficoltà di localizzazione che potrebbero non essere evidenti nelle metriche aggregate.

Considerare i vincoli di implementazione e i compromessi reali

Le prestazioni del modello spesso cambiano quando si passa da ambienti di test controllati all'implementazione nel mondo reale. Fattori quali la risoluzione delle immagini, la velocità di elaborazione e l'hardware disponibile introducono compromessi che influenzano direttamente il rilevamento di oggetti di piccole dimensioni.

Ad esempio, aumentando la risoluzione di input è possibile migliorare mAP degli oggetti di piccole dimensioni mAP i target piccoli occupano più pixel e conservano maggiori dettagli. Tuttavia, una risoluzione più elevata aumenta anche l'utilizzo della memoria e il tempo di elaborazione. Ciò può rallentare l'inferenza e aumentare i costi operativi.

Fig. 4. Sfide legate all'implementazione del rilevamento di oggetti di piccole dimensioni. Immagine dell'autore.

La scelta dell'hardware gioca un ruolo fondamentale nella gestione di questi compromessi. Le GPU più potenti consentono modelli più grandi e un'elaborazione più veloce, ma gli ambienti di implementazione, in particolare i dispositivi edge, hanno spesso risorse di calcolo e memoria limitate. 

Le applicazioni in tempo reale aggiungono un ulteriore vincolo: mantenere una bassa latenza può richiedere una riduzione delle dimensioni del modello o della risoluzione di input, il che può influire negativamente sul richiamo di oggetti di piccole dimensioni. In definitiva, le decisioni di implementazione richiedono un equilibrio tra le prestazioni di rilevamento e i limiti hardware, i requisiti di velocità e il costo complessivo. 

Mettendo tutto insieme: migliorare mAP del modello mAP oggetti di piccole dimensioni

Il miglioramento del rilevamento di oggetti di piccole dimensioni richiede un approccio pratico e strutturato, soprattutto quando si lavora in ambienti reali. Ecco una panoramica dei passaggi principali da tenere a mente:

  • Verifica la qualità del tuo set di dati: assicurati che il tuo set di dati includa un numero sufficiente di esempi di oggetti di piccole dimensioni, utilizzi immagini ad alta risoluzione quando possibile e rifletta le condizioni in cui il modello verrà implementato.
  • Verifica della coerenza delle annotazioni: assicurati che i riquadri di delimitazione siano accurati, completi e contrassegnati in modo coerente. Annotazioni incoerenti possono limitare direttamente le prestazioni di localizzazione.
  • Regola attentamente le impostazioni di addestramento: modifica con attenzione la dimensione del batch, il numero di epoche e le impostazioni di ottimizzazione in modo che gli oggetti di piccole dimensioni siano rappresentati correttamente durante l'addestramento.
  • Procedere passo dopo passo: apportare modifiche controllate, misurarne l'impatto e perfezionare l'approccio. Un'iterazione costante e basata sui dati porta a un miglioramento costante nel tempo.

Punti chiave

Il miglioramento mAP oggetti di piccole dimensioni richiede un approccio strutturato e basato sui dati, anziché modifiche casuali. I miglioramenti reali derivano dalla combinazione di dati validi, annotazioni coerenti, formazione accurata e metodi di valutazione adeguati. Nei progetti reali, test costanti e modifiche piccole e misurabili sono ciò che porta a un rilevamento degli oggetti di piccole dimensioni migliore e più affidabile nel tempo.

Entra a far parte della nostra comunità in continua crescita ed esplora il nostro repository GitHub per risorse pratiche sull'IA. Per iniziare subito a sviluppare con l'IA visiva, scopri le nostre opzioni di licenza. Scopri come l'IA in agricoltura sta trasformando l'agricoltura e come l'IA visiva nella robotica sta plasmando il futuro visitando le nostre pagine dedicate alle soluzioni.

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis