Precisione media (mAP) nel rilevamento degli oggetti

Abirami Vina

6 minuti di lettura

28 agosto 2025

Capire la precisione media (mAP) nel rilevamento di oggetti. Imparate il significato, il calcolo e perché la mAP è fondamentale per valutare le prestazioni del modello.

L'adozione dell'intelligenza artificiale sta crescendo rapidamente e viene integrata in diverse innovazioni, dalle auto a guida autonoma ai sistemi di vendita al dettaglio in grado di identificare i prodotti su uno scaffale. Queste tecnologie si basano sulla computer vision, una branca dell'intelligenza artificiale (AI) che consente alle macchine di analizzare i dati visivi. 

Una metrica di valutazione chiave utilizzata per misurare l'accuratezza dei sistemi e degli algoritmi di visione artificiale è la precisione media (mAP). La metrica mAP indica quanto la previsione di un modello di Vision AI corrisponda ai risultati del mondo reale.

Un compito comune della computer vision è il rilevamento degli oggetti, in cui un modello identifica più oggetti in un'immagine e disegna dei riquadri di delimitazione intorno ad essi. mAP è la metrica standard utilizzata per valutare le prestazioni dei modelli di rilevamento degli oggetti ed è ampiamente utilizzata per effettuare il benchmark di modelli di deep learning come Ultralytics YOLO11.

In questo articolo vedremo come si calcola la precisione media e perché è essenziale per chiunque addestri o valuti i modelli di rilevamento degli oggetti. Iniziamo!

Che cos'è la precisione media (mAP)?

La precisione media è un punteggio che mostra l'accuratezza di un modello di deep learning quando si tratta di compiti legati al recupero di informazioni visive, come il rilevamento e l'identificazione di diversi oggetti in un'immagine. Ad esempio, consideriamo un modello di rilevamento degli oggetti che analizza una foto contenente un cane, un gatto e un'auto. Un modello affidabile è in grado di eseguire il rilevamento degli oggetti riconoscendo ciascun oggetto e disegnando intorno ad esso riquadri di delimitazione ed etichette, evidenziando dove si trova e di cosa si tratta.

mAP indica la capacità del modello di svolgere questo compito su molte immagini e su diversi tipi di oggetti. Controlla se il modello identifica accuratamente ogni oggetto e la sua posizione all'interno dell'immagine. Il punteggio varia da 0 a 1, dove uno significa che il modello ha trovato tutto perfettamente e zero significa che non ha rilevato alcun oggetto.

Concetti chiave della precisione media (mAP)

Prima di esplorare i concetti che stanno alla base della precisione media nell'apprendimento automatico, cerchiamo di capire meglio due termini fondamentali: verità di base e predizioni. 

La verità di base si riferisce ai dati di riferimento accurati, in cui gli oggetti e le loro posizioni nell'immagine sono accuratamente etichettati dall'uomo attraverso un processo noto come annotazione. Le previsioni, invece, sono i risultati che i modelli di intelligenza artificiale forniscono dopo aver analizzato un'immagine. Confrontando le previsioni del modello AI con la verità di base, possiamo misurare quanto il modello si sia avvicinato ai risultati corretti. 

Figura 1. Le caselle di delimitazione del modello e della verità a terra. Immagine dell'autore.

Matrice di confusione

Una matrice di confusione viene spesso utilizzata per capire quanto sia preciso un modello di rilevamento degli oggetti. Si tratta di una tabella che mostra la corrispondenza tra le previsioni del modello e le risposte effettivamente corrette (verità a terra). Da questa tabella è possibile ottenere una ripartizione di quattro componenti o risultati chiave: veri positivi, falsi positivi, falsi negativi e veri negativi.

Ecco cosa rappresentano queste componenti nella matrice di confusione:

  • Vero positivo (TP): Un oggetto e la sua posizione vengono rilevati correttamente dal modello.
  • Falso positivo (FP): il modello ha effettuato un rilevamento, ma non era corretto.
  • Falso negativo (FN): Un oggetto che era effettivamente presente nell'immagine, ma che il modello non è riuscito a rilevare.
  • Vero negativo (TN): I veri negativi si verificano quando il modello identifica correttamente l'assenza di un oggetto.

I veri negativi non sono comunemente utilizzati nel rilevamento degli oggetti, poiché di solito ignoriamo le molte regioni vuote di un'immagine. Tuttavia, è essenziale in altri compiti di computer vision, come la classificazione delle immagini, in cui il modello assegna un'etichetta all'immagine. Per esempio, se il compito è quello di rilevare se un'immagine contiene o meno un gatto e il modello identifica correttamente "nessun gatto" quando l'immagine non ne contiene, si tratta di un vero negativo.

Figura 2. Risultati della classificazione in una matrice di confusione. Immagine dell'autore.

Intersezione su Unione (IoU)

Un'altra metrica fondamentale per valutare i modelli di rilevamento degli oggetti è l' Intersection over Union (IoU). Per questi modelli di Vision AI, il semplice rilevamento della presenza di un oggetto in un'immagine non è sufficiente; è necessario anche individuare la posizione dell'oggetto nell'immagine per disegnare i riquadri di delimitazione. 

La metrica IoU misura quanto la casella prevista dal modello corrisponda alla casella reale e corretta (verità di base). Il punteggio è compreso tra 0 e 1, dove 1 significa una corrispondenza perfetta e 0 significa nessuna sovrapposizione.

Ad esempio, un IoU più alto (come 0,80 o 0,85) significa che il riquadro previsto è molto simile a quello della verità a terra, indicando una localizzazione accurata. Un IoU più basso (come 0,30 o 0,25) significa che il modello non ha localizzato accuratamente l'oggetto.

Per determinare se un rilevamento è riuscito, utilizziamo diverse soglie. Una soglia IoU comune è 0,5, il che significa che un riquadro previsto deve sovrapporsi al riquadro della verità a terra di almeno il 50% per essere considerato un vero positivo. Qualsiasi sovrapposizione al di sotto di questa soglia è considerata un falso positivo.

Figura 3. Comprensione dell'intersezione rispetto all'unione. Immagine dell'autore.

Precisione e richiamo

Finora abbiamo esplorato alcune metriche di valutazione di base per comprendere le prestazioni dei modelli di rilevamento degli oggetti. Due delle metriche più importanti sono la precisione e il richiamo. Esse ci danno un quadro chiaro dell'accuratezza dei rilevamenti del modello. Vediamo quali sono.

I valori di precisione ci dicono quante previsioni del modello sono state effettivamente corrette. Risponde alla domanda: di tutti gli oggetti che il modello ha dichiarato di rilevare, quanti erano realmente presenti?

I valori di richiamo, invece, misurano la capacità del modello di individuare tutti gli oggetti reali presenti nell'immagine. Risponde alla domanda: di tutti gli oggetti reali presenti, quanti ne ha individuati correttamente il modello?

Insieme, la precisione e il richiamo ci danno un'immagine più chiara delle prestazioni di un modello. Ad esempio, se un modello predice 10 automobili in un'immagine e 9 di esse sono effettivamente automobili, ha una precisione del 90% (una previsione positiva). 

Queste due metriche di valutazione spesso comportano un compromesso: un modello può ottenere un valore di precisione elevato facendo solo previsioni in cui è pienamente fiducioso, ma questo può far sì che non trovi molti oggetti, abbassando così il livello di richiamo. Nel frattempo, può anche raggiungere un richiamo molto alto prevedendo un rettangolo di selezione quasi ovunque, ma questo ridurrebbe la precisione.

Figura 4. Precisione e richiamo. Immagine dell'autore.

Precisione media

Mentre la precisione e il richiamo ci aiutano a capire come si comporta un modello su singole previsioni, la precisione media (AP) può fornire una visione più ampia. Illustra come cambia la precisione del modello man mano che tenta di rilevare più oggetti e riassume le sue prestazioni in un unico numero.

Per calcolare il punteggio medio di precisione, possiamo innanzitutto creare una metrica combinata simile a un grafico, chiamata curva di precisione-richiamo (o curva PR) per ogni tipo di oggetto. Questa curva mostra cosa succede quando il modello fa più previsioni. 

Si consideri uno scenario in cui il modello inizia a rilevare solo gli oggetti più facili o più evidenti. In questa fase, la precisione è elevata perché la maggior parte delle previsioni sono corrette, ma il richiamo è basso perché molti oggetti vengono ancora tralasciati. Quando il modello cerca di rilevare un maggior numero di oggetti, compresi quelli più difficili o rari, di solito introduce più errori. Questo fa sì che la precisione diminuisca, mentre il richiamo aumenti.

La precisione media è l'area sotto la curva (AUC della curva PR). Un'area più ampia significa che il modello è in grado di mantenere accurate le sue previsioni, anche quando rileva un numero maggiore di oggetti. L'AUC viene calcolata separatamente per ogni etichetta di classe. 

Ad esempio, in un modello in grado di rilevare auto, biciclette e pedoni, possiamo calcolare i valori di AP singolarmente per ciascuna di queste tre categorie. Questo ci aiuta a capire quali sono gli oggetti che il modello è in grado di rilevare e quali invece devono ancora essere migliorati.

Figura 5. Curva PR per cinque diverse classi.(Fonte)

Precisione media

Dopo aver calcolato la precisione media per ogni classe di oggetti, abbiamo ancora bisogno di un singolo punteggio che rifletta le prestazioni complessive del modello in tutte le classi. Questo risultato può essere ottenuto con la formula della precisione media . Questa formula calcola la media dei punteggi AP per ogni categoria.

Ad esempio, supponiamo che un modello di computer vision come YOLO11 ottenga un AP di 0,827 per le auto, 0,679 per le moto, 0,355 per i camion, 0,863 per gli autobus e 0,982 per le biciclette. Utilizzando la formula mAP, possiamo sommare questi numeri e dividerli per il numero totale di classi come segue: 

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

Il punteggio mAP di 0,743 fornisce una soluzione semplice per giudicare le prestazioni del modello in tutte le classi di oggetti. Un valore vicino a 1 significa che il modello è accurato per la maggior parte delle categorie, mentre un valore inferiore indica che ha difficoltà con alcune.

Significato di AP e mAP nella computer vision

Ora che abbiamo capito meglio come si calcolano AP e mAP e quali sono i loro componenti, ecco una panoramica del loro significato nella computer vision:

  • AP basso per una classe specifica: Un AP basso per una singola classe spesso significa che il modello ha difficoltà con quella specifica classe di oggetti. Ciò può essere dovuto a dati di addestramento insufficienti o a problemi visivi nelle immagini, come l'occlusione.
  • Errori di localizzazione: Un valore di mAP più alto a una soglia IoU più bassa (come mAP@0.50) combinato con un calo significativo a una soglia IoU più alta (come mAP@0.75) indica che il modello è in grado di rilevare gli oggetti ma fatica a localizzarli con precisione.
  • Overfitting: Un valore di mAP più alto sul set di dati di addestramento ma un valore di mAP più basso sul set di dati di validazione è un segno di overfitting, che rende il modello inaffidabile per le nuove immagini.

Applicazioni del mondo reale della precisione media

Analizziamo poi come metriche chiave come la mAP possano essere utili nella creazione di casi d'uso reali di computer vision.

Veicoli autonomi: Perché un valore di mAP più elevato significa strade più sicure

Quando si parla di auto a guida autonoma, il rilevamento degli oggetti è fondamentale per identificare pedoni, segnali stradali, ciclisti e segnaletica di corsia. Ad esempio, se un bambino attraversa improvvisamente la strada, l'auto ha pochi secondi per rilevare l'oggetto (il bambino), individuare la sua posizione, seguire il suo movimento e intraprendere l'azione necessaria (frenare). 

Modelli come YOLO11 sono progettati per il rilevamento di oggetti in tempo reale in questi scenari ad alto rischio. In questi casi, il mAP diventa una misura critica di sicurezza.

Un punteggio mAP elevato garantisce che il sistema rilevi rapidamente il bambino, lo localizzi con precisione e attivi la frenata con un ritardo minimo. Un mAP basso può significare mancati rilevamenti o pericolosi errori di classificazione, come il confondere il bambino con un altro piccolo oggetto.

Figura 6. Un esempio di utilizzo di YOLO11 per rilevare i pedoni sulla strada.(Fonte)

Utilizzo di mAP per il rilevamento accurato dei prodotti

Allo stesso modo, nel settore della vendita al dettaglio, i modelli di rilevamento degli oggetti possono essere utilizzati per automatizzare attività come il monitoraggio delle scorte e i processi di cassa. Quando un cliente scansiona un prodotto alla cassa automatica, un errore nel rilevamento può causare frustrazione.

Un punteggio mAP elevato assicura che il modello distingua accuratamente tra prodotti simili e disegni riquadri di delimitazione precisi, anche quando gli articoli sono strettamente imballati. Un punteggio mAP basso può portare a confusione. Per esempio, se il modello confonde una bottiglia di succo d'arancia con una bottiglia di succo di mela, visivamente simile, potrebbe causare una fatturazione errata e rapporti di inventario imprecisi.

I sistemi di vendita al dettaglio integrati con modelli come YOLO11 possono rilevare i prodotti in tempo reale, confrontarli con l'inventario e aggiornare istantaneamente i sistemi di back-end. In contesti di vendita al dettaglio frenetici, mAP svolge un ruolo cruciale nel mantenere le operazioni accurate e affidabili.

Migliorare l'accuratezza diagnostica con un'elevata mAP nell'assistenza sanitaria

Il miglioramento dell'accuratezza diagnostica nell'assistenza sanitaria inizia con il rilevamento preciso delle immagini mediche. Modelli come YOLO11 possono aiutare i radiologi a individuare tumori, fratture o altre anomalie dalle scansioni mediche. In questo caso, la precisione media è una metrica essenziale per valutare l'affidabilità clinica di un modello.

Un mAP elevato indica che il modello raggiunge sia un elevato richiamo (identificando il maggior numero di problemi reali) sia un'elevata precisione (evitando i falsi allarmi), che è fondamentale nel processo decisionale clinico. Inoltre, la soglia IoU in ambito sanitario è spesso impostata molto alta (0,85 o 0,90) per garantire un rilevamento estremamente accurato.

Tuttavia, un punteggio mAP basso può destare preoccupazioni. Se il modello non trova un tumore, potrebbe ritardare la diagnosi o portare a un trattamento non corretto. 

Pro e contro dell'utilizzo di mAP

Ecco i principali vantaggi dell'uso della precisione media per valutare i modelli di rilevamento degli oggetti:

  • Metrica standardizzata: mAP è lo standard del settore per la valutazione dei modelli di rilevamento degli oggetti. Il valore di mAP consente di effettuare confronti equi e coerenti tra i diversi modelli.
  • Riflette le prestazioni del mondo reale: Un mAP elevato indica che il modello eccelle nel rilevamento di varie classi di oggetti e mantiene prestazioni elevate in scenari complessi del mondo reale.
  • Diagnostica per classi: Il punteggio di mAP valuta le prestazioni di rilevamento per ogni singola classe. In questo modo è più facile identificare le categorie con prestazioni insufficienti (come le biciclette o i cartelli stradali) e mettere a punto il modello di conseguenza.

Sebbene l'utilizzo della metrica mAP presenti diversi vantaggi, è necessario considerare alcune limitazioni. Ecco alcuni fattori da tenere in considerazione:

  • Difficile per gli stakeholder non tecnologici: I team aziendali o clinici possono trovare i valori della mAP astratti, a differenza di metriche più intuitive e facili da capire.
  • Non riflette i vincoli del tempo reale: mAP non tiene conto della velocità di inferenza o della latenza, che sono fondamentali per l'impiego in applicazioni sensibili al tempo.

Punti di forza

Abbiamo visto che la precisione media non è solo un punteggio tecnico, ma un riflesso delle potenziali prestazioni del modello nel mondo reale. Che si tratti di un sistema di veicoli autonomi o di una cassa al dettaglio, un punteggio mAP elevato è un indicatore affidabile delle prestazioni e della praticità di un modello.

Sebbene la mAP sia una metrica essenziale e d'impatto, deve essere considerata come parte di una strategia di valutazione a tutto tondo. Per applicazioni critiche come l'assistenza sanitaria e la guida autonoma, non è sufficiente affidarsi esclusivamente al mAP. 

Per garantire che il sistema sia sicuro, efficiente e veramente adatto allo scopo prefissato, è necessario prendere in considerazione anche altri fattori, come la velocità di inferenza (la velocità con cui il modello fa le previsioni), le dimensioni del modello (che hanno un impatto sull'implementazione sui dispositivi edge) e l'analisi qualitativa degli errori (la comprensione dei tipi di errori che il modello commette).

Unitevi alla nostra comunità in crescita e al repository GitHub per saperne di più sulla computer vision. Esplorate le nostre pagine dedicate alle soluzioni per conoscere le applicazioni della computer vision in agricoltura e dell' IA nella logistica. Scoprite le nostre opzioni di licenza per iniziare a creare il vostro modello di computer vision oggi stesso!

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti