Precisione Media Media (mAP): Rilevamento Oggetti

L'adozione dell'IA sta crescendo rapidamente e l'IA viene integrata in varie innovazioni, dalle auto a guida autonoma ai sistemi di vendita al dettaglio in grado di identificare i prodotti su uno scaffale. Queste tecnologie si basano sulla computer vision, una branca dell'intelligenza artificiale (IA) che consente alle macchine di analizzare i dati visivi.

Una metrica di valutazione chiave utilizzata per misurare l'accuratezza dei sistemi e degli algoritmi di computer vision è la mean Average Precision (mAP). La metrica mAP indica quanto strettamente la previsione di un modello Vision AI corrisponda ai risultati del mondo reale.

Un'attività comune nella computer vision è il rilevamento di oggetti, in cui un modello identifica più oggetti in un'immagine e disegna dei bounding box attorno ad essi. mAP è la metrica standard utilizzata per valutare le prestazioni dei modelli di rilevamento di oggetti ed è ampiamente utilizzata per confrontare modelli di deep learning come Ultralytics YOLO11.

In questo articolo vedremo come viene calcolata la precisione media media e perché è essenziale per chiunque addestri o valuti modelli di object detection. Iniziamo!

Cos'è la precisione media media (mAP)?

La precisione media media è un punteggio che indica l'accuratezza di un modello di deep learning quando si tratta di attività relative al recupero di informazioni visive, come il rilevamento e l'identificazione di diversi oggetti in un'immagine. Ad esempio, si consideri un modello di object detection che analizza una foto contenente un cane, un gatto e un'auto. Un modello affidabile può eseguire l'object detection riconoscendo ogni oggetto e disegnando bounding box ed etichette attorno ad esso, evidenziando dove si trova e cosa è.

La mAP indica le prestazioni del modello in questo compito su molte immagini e diversi tipi di oggetti. Verifica se il modello identifica accuratamente ogni oggetto e la sua posizione all'interno dell'immagine. Il punteggio varia da 0 a 1, dove 1 significa che il modello ha trovato tutto perfettamente e 0 significa che non è riuscito a rilevare alcun oggetto.

Concetti chiave nella precisione media media (mAP)

Prima di esplorare i concetti alla base della precisione media media nel machine learning, cerchiamo di capire meglio due termini di base: ground truth e previsioni.

La ground truth si riferisce ai dati di riferimento accurati, in cui gli oggetti e le loro posizioni nell'immagine sono accuratamente etichettati da persone attraverso un processo noto come annotazione. Le predizioni, invece, sono i risultati forniti dai modelli di IA dopo aver analizzato un'immagine. Confrontando le predizioni del modello di IA con la ground truth, possiamo misurare quanto il modello si è avvicinato all'ottenimento dei risultati corretti.

Fig. 1. La previsione del modello e i bounding box della ground truth. Immagine dell'autore.

‍

Matrice di confusione

Una matrice di confusione viene spesso utilizzata per capire quanto è preciso un modello di rilevamento oggetti. È una tabella che mostra come le previsioni del modello corrispondono alle risposte corrette effettive (ground truth). Da questa tabella, possiamo ottenere una ripartizione di quattro componenti o risultati chiave: veri positivi, falsi positivi, falsi negativi e veri negativi.

Ecco cosa rappresentano questi componenti nella matrice di confusione:

Vero positivo (TP): Un oggetto e la sua posizione vengono correttamente rilevati dal modello.
‍
Falso positivo (FP): Il modello ha effettuato un rilevamento, ma era errato.
‍
Falso negativo (FN): Un oggetto che era effettivamente presente nell'immagine, ma che il modello non è riuscito a rilevare.
‍
Vero negativo (TN): I veri negativi si verificano quando il modello identifica correttamente l'assenza di un oggetto.

I veri negativi non sono comunemente usati nel rilevamento degli oggetti, poiché in genere ignoriamo le molte regioni vuote in un'immagine. Tuttavia, è essenziale in altre attività di computer vision, come la classificazione delle immagini, in cui il modello assegna un'etichetta all'immagine. Ad esempio, se l'attività è rilevare se un'immagine contiene o meno un gatto e il modello identifica correttamente "nessun gatto" quando l'immagine non ne contiene uno, questo è un vero negativo.

Fig. 2. Risultati della classificazione in una matrice di confusione. Immagine dell'autore.

‍

Intersezione sull'Unione (IoU)

Un'altra metrica fondamentale nella valutazione dei modelli di object detection è l'Intersection over Union (IoU). Per tali modelli di Vision AI, non è sufficiente rilevare la presenza di un oggetto in un'immagine; è anche necessario individuare dove si trova in un'immagine per disegnare i bounding box.

La metrica IoU misura quanto strettamente la bounding box prevista dal modello corrisponde alla bounding box effettiva e corretta (ground truth). Il punteggio è compreso tra 0 e 1, dove 1 significa una corrispondenza perfetta e 0 significa nessuna sovrapposizione.

Ad esempio, un IoU più alto (come 0,80 o 0,85) significa che la bounding box predetta corrisponde strettamente alla ground-truth box, indicando una localizzazione accurata. Un IoU più basso (come 0,30 o 0,25) significa che il modello non ha localizzato accuratamente l'oggetto.

Per determinare se un rilevamento ha successo, utilizziamo diverse soglie. Una soglia IoU comune è 0,5, il che significa che una casella prevista deve sovrapporsi alla casella di verità di base di almeno il 50% per essere conteggiata come un vero positivo. Qualsiasi sovrapposizione inferiore a questa soglia è considerata un falso positivo.

Fig. 3. Comprensione dell'Intersection over Union. Immagine dell'autore.

‍

Precisione e richiamo

Finora, abbiamo esplorato alcune metriche di valutazione di base per comprendere le prestazioni dei modelli di object detection. Partendo da questo, due delle metriche più importanti sono precision e recall. Ci forniscono un quadro chiaro di quanto siano accurate le rilevazioni del modello. Diamo un'occhiata a cosa sono.

I valori di precisione ci dicono quante delle previsioni del modello erano effettivamente corrette. Risponde alla domanda: di tutti gli oggetti che il modello ha affermato di rilevare, quanti erano realmente presenti?

I valori di recall, d'altra parte, misurano quanto bene il modello trova tutti gli oggetti effettivi presenti nell'immagine. Risponde alla domanda: di tutti gli oggetti reali presenti, quanti ne ha rilevati correttamente il modello?

Insieme, precisione e richiamo ci forniscono un quadro più chiaro delle prestazioni di un modello. Ad esempio, se un modello prevede 10 auto in un'immagine e 9 di queste sono effettivamente auto, ha una precisione del 90% (una previsione positiva).

Queste due metriche di valutazione spesso comportano un compromesso: un modello può raggiungere un valore di precisione elevato effettuando solo previsioni di cui è pienamente convinto, ma ciò può fargli perdere molti oggetti, il che riduce il livello di recall. Allo stesso tempo, può anche raggiungere un recall molto elevato prevedendo una bounding box quasi ovunque, ma ciò ridurrebbe la precisione.

Fig. 4. Precisione e richiamo. Immagine dell'autore.

‍

Precisione media

Mentre precisione e richiamo ci aiutano a capire come si comporta un modello sulle singole previsioni, la precisione media (AP) può fornire una visione più ampia. Illustra come cambia la precisione del modello mentre tenta di rilevare più oggetti e riassume le sue prestazioni in un unico numero.

Per calcolare il punteggio medio di precisione, possiamo prima creare una metrica combinata simile a un grafico chiamata curva precisione-richiamo (o curva PR) per ogni tipo di oggetto. Questa curva mostra cosa succede quando il modello fa più previsioni.

Considera uno scenario in cui il modello inizia rilevando solo gli oggetti più facili o più ovvi. In questa fase, la precisione è elevata perché la maggior parte delle previsioni sono corrette, ma il richiamo è basso poiché molti oggetti vengono ancora persi. Man mano che il modello cerca di rilevare più oggetti, compresi quelli più difficili o più rari, di solito introduce più errori. Ciò fa diminuire la precisione mentre il richiamo aumenta.

La precisione media è l'area sotto la curva (AUC della curva PR). Un'area più grande significa che il modello è più bravo a mantenere accurate le sue previsioni, anche quando rileva più oggetti. L'AP viene calcolata separatamente per ogni etichetta di classe.

Ad esempio, in un modello in grado di rilevare auto, biciclette e pedoni, possiamo calcolare i valori AP individualmente per ciascuna di queste tre categorie. Questo ci aiuta a vedere quali oggetti il modello è bravo a rilevare e dove potrebbe ancora aver bisogno di miglioramenti.

Fig. 5. Una curva PR per cinque classi diverse. (Fonte)

‍

Precisione media media

Dopo aver calcolato la precisione media per ogni classe di oggetti, abbiamo ancora bisogno di un singolo punteggio che rifletta le prestazioni complessive del modello in tutte le classi. Questo può essere ottenuto utilizzando la formula della precisione media media. Essa calcola la media dei punteggi AP per ogni categoria.

Ad esempio, supponiamo che un modello di computer vision come YOLO11 raggiunga un AP di 0,827 per le auto, 0,679 per le moto, 0,355 per i camion, 0,863 per gli autobus e 0,982 per le biciclette. Utilizzando la formula mAP, possiamo sommare questi numeri e dividerli per il numero totale di classi come segue:

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

‍

Il punteggio mAP di 0.743 fornisce una soluzione semplice per valutare le prestazioni del modello su tutte le classi di oggetti. Un valore vicino a 1 significa che il modello è accurato per la maggior parte delle categorie, mentre un valore inferiore suggerisce che ha difficoltà con alcune.

Significato di AP e mAP nella computer vision

Ora che abbiamo una migliore comprensione di come vengono calcolati AP e mAP e quali sono i loro componenti, ecco una panoramica del loro significato nella computer vision:

Basso valore di AP per una classe specifica: Un basso valore di AP per una singola classe spesso indica che il modello ha difficoltà con quella specifica classe di oggetti. Ciò può essere dovuto a dati di training insufficienti o a difficoltà visive nelle immagini, come l'occlusione.

Errori di localizzazione: Un valore mAP più alto a una soglia IoU inferiore (come mAP@0.50) combinato con un calo significativo a una soglia IoU più alta (come mAP@0.75) indica che il modello è in grado di rilevare gli oggetti ma ha difficoltà a localizzarli con precisione.

Overfitting: Un valore mAP più alto sul dataset di training ma un valore mAP più basso sul dataset di validazione è un segno di overfitting, il che rende il modello inaffidabile per nuove immagini.

Applicazioni reali della precisione media (mean average precision)

Successivamente, esploriamo come metriche chiave come la mAP possono essere d'aiuto nella creazione di casi d'uso di computer vision nel mondo reale.

Veicoli autonomi: perché un valore mAP più alto significa strade più sicure

Quando si tratta di auto a guida autonoma, il rilevamento degli oggetti è fondamentale per identificare pedoni, segnali stradali, ciclisti e segnaletica orizzontale. Ad esempio, se un bambino attraversa improvvisamente la strada, l'auto ha pochi secondi per rilevare l'oggetto (bambino), individuare dove si trova, tracciare il suo movimento e intraprendere le azioni necessarie (azionare i freni).

Modelli come YOLO11 sono progettati per il rilevamento di oggetti in tempo reale in scenari ad alto rischio come questi. In questi casi, mAP diventa una misura critica della sicurezza.

Un punteggio mAP elevato garantisce che il sistema rilevi il bambino rapidamente, lo localizzi con precisione e attivi la frenata con il minimo ritardo. Un mAP basso può significare mancate rilevazioni o pericolose errate classificazioni, come confondere il bambino con un altro piccolo oggetto.

Fig. 6. Un esempio di YOLO11 utilizzato per rilevare i pedoni sulla strada. (Fonte)

‍

Utilizzo di mAP per il rilevamento accurato dei prodotti

Allo stesso modo, nel retail, i modelli di object detection possono essere utilizzati per automatizzare attività come il monitoraggio delle scorte e i processi di checkout. Quando un cliente scansiona un prodotto presso una cassa self-service, un errore nel rilevamento può causare frustrazione.

Un punteggio mAP elevato assicura che il modello distingua accuratamente tra prodotti simili e disegni bounding box precise, anche quando gli articoli sono strettamente imballati. Un punteggio mAP basso può portare a confusioni. Ad esempio, se il modello scambia una bottiglia di succo d'arancia con una bottiglia di succo di mela visivamente simile, potrebbe comportare una fatturazione errata e rapporti di inventario imprecisi.

I sistemi di vendita al dettaglio integrati con modelli come YOLO11 possono rilevare i prodotti in tempo reale, verificarli rispetto all'inventario e aggiornare istantaneamente i sistemi di backend. In contesti di vendita al dettaglio frenetici, la mAP svolge un ruolo cruciale nel mantenere le operazioni accurate e affidabili.

Miglioramento dell'accuratezza diagnostica con un mAP elevato nel settore sanitario

Migliorare l'accuratezza diagnostica nel settore sanitario inizia con il rilevamento preciso nell'imaging medicale. Modelli come YOLO11 possono aiutare i radiologi a individuare tumori, fratture o altre anomalie dalle scansioni mediche. In questo caso, la mean average precision è una metrica essenziale per valutare l'affidabilità clinica di un modello.

Un mAP elevato indica che il modello raggiunge sia un alto recall (identificando la maggior parte dei problemi reali) sia un'alta precisione (evitando falsi allarmi), il che è fondamentale nel processo decisionale clinico. Inoltre, la soglia IoU in ambito sanitario è spesso impostata molto alta (0,85 o 0,90) per garantire un rilevamento estremamente accurato.

Tuttavia, un basso punteggio mAP può destare preoccupazioni. Supponiamo che un modello non rilevi un tumore: ciò potrebbe ritardare la diagnosi o portare a un trattamento errato.

Pro e contro dell'utilizzo di mAP

Ecco i principali vantaggi dell'utilizzo della precisione media (mean average precision) per valutare i modelli di object detection:

Metrica standardizzata: mAP è lo standard di settore per la valutazione dei modelli di object detection. Un valore mAP consente confronti equi e coerenti tra diversi modelli.

Riflette le prestazioni nel mondo reale: Un mAP elevato indica che il modello eccelle nel rilevare varie classi di oggetti e mantiene prestazioni elevate in scenari complessi del mondo reale.

Diagnostica per classe: Un punteggio mAP valuta le prestazioni di rilevamento per ogni classe individualmente. Questo rende più facile identificare le categorie con prestazioni inferiori (come biciclette o segnali stradali) e mettere a punto il modello di conseguenza.

Sebbene ci siano vari vantaggi nell'utilizzo della metrica mAP, ci sono alcune limitazioni da considerare. Ecco alcuni fattori da tenere in considerazione:

Difficile per gli stakeholder non tecnici: I team aziendali o clinici possono trovare i valori mAP astratti, a differenza delle metriche più intuitive e facili da capire.

Non riflette i vincoli in tempo reale: la mAP non tiene conto della velocità di inferenza o della latenza, che sono fondamentali per l'implementazione in applicazioni sensibili al fattore tempo.

Punti chiave

Abbiamo visto che la precisione media media non è solo un punteggio tecnico, ma un riflesso del potenziale rendimento di un modello nel mondo reale. Sia in un sistema di veicoli autonomi che in un sistema di pagamento al dettaglio, un punteggio mAP elevato funge da indicatore affidabile delle prestazioni e della preparazione pratica di un modello.

Sebbene mAP sia una metrica essenziale e di grande impatto, dovrebbe essere vista come parte di una strategia di valutazione completa. Per applicazioni critiche come l'assistenza sanitaria e la guida autonoma, non è sufficiente fare affidamento esclusivamente su mAP.

È necessario considerare anche fattori aggiuntivi come la velocità di inferenza (la velocità con cui il modello fa previsioni), le dimensioni del modello (che influiscono sulla distribuzione sui dispositivi edge) e l'analisi qualitativa degli errori (la comprensione dei tipi di errori commessi dal modello) per garantire che il sistema sia sicuro, efficiente e realmente adatto allo scopo previsto.

Unisciti alla nostra community in crescita e al nostro repository GitHub per saperne di più sulla computer vision. Esplora le nostre pagine delle soluzioni per scoprire le applicazioni della computer vision in agricoltura e dell'AI nella logistica. Scopri le nostre opzioni di licenza per iniziare subito a utilizzare il tuo modello di computer vision!

Precisione media media (mAP) nel rilevamento oggetti

Cos'è la precisione media media (mAP)?