Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Guide

Mean average precision (mAP) nel rilevamento oggetti

Comprendi la Mean Average Precision (mAP) nel rilevamento oggetti. Scopri il suo significato, il calcolo e perché la mAP è fondamentale per valutare le prestazioni del modello.

ABAbirami Vina
6 min read
BBox previste e di ground truth utilizzate per calcolare la mAP

L'adozione dell'IA sta crescendo rapidamente e l'IA viene integrata in svariate innovazioni, dalle auto a guida autonoma ai sistemi di vendita al dettaglio in grado di identificare i prodotti sugli scaffali. Queste tecnologie si basano sulla computer vision, un ramo dell'intelligenza artificiale (IA) che permette alle macchine di analizzare dati visivi.

Una metrica di valutazione chiave utilizzata per misurare l'accuratezza dei sistemi e degli algoritmi di computer vision è la precisione media (mAP). La metrica mAP indica quanto la previsione di un modello di IA visiva si avvicini ai risultati del mondo reale.

Un compito comune di computer vision è il rilevamento oggetti, in cui un modello identifica più oggetti in un'immagine e disegna riquadri di delimitazione attorno ad essi. La mAP è la metrica standard utilizzata per valutare le prestazioni dei modelli di rilevamento oggetti ed è ampiamente impiegata per testare modelli di deep learning come Ultralytics YOLO11.

In questo articolo vedremo come viene calcolata la precisione media e perché è essenziale per chiunque addestri o valuti modelli di rilevamento oggetti. Cominciamo!

Link to this sectionCos'è la precisione media (mAP)?#

La precisione media è un punteggio che mostra quanto sia accurato un modello di deep learning nei compiti relativi al recupero di informazioni visive, come rilevare e identificare diversi oggetti in un'immagine. Ad esempio, considera un modello di object detection che analizza una foto contenente un cane, un gatto e un'auto. Un modello affidabile può eseguire il rilevamento oggetti riconoscendo ogni elemento e disegnando riquadri di delimitazione ed etichette attorno ad esso, evidenziando dove si trova e cosa sia.

La mAP indica quanto bene il modello svolga questo compito su molte immagini e diversi tipi di oggetti. Verifica se il modello identifichi correttamente ogni oggetto e la sua posizione all'interno dell'immagine. Il punteggio varia da 0 a 1, dove uno significa che il modello ha trovato tutto perfettamente e zero che non è riuscito a rilevare alcun oggetto.

Link to this sectionConcetti chiave nella precisione media (mAP)#

Prima di esplorare i concetti alla base della precisione media nel machine learning, acquisiamo una comprensione migliore di due termini fondamentali: ground truth e previsioni.

Il ground truth si riferisce ai dati di riferimento accurati, in cui gli oggetti e le loro posizioni nell'immagine sono etichettati attentamente dagli esseri umani attraverso un processo noto come annotazione. Nel frattempo, le previsioni sono i risultati che i modelli di IA forniscono dopo aver analizzato un'immagine. Confrontando le previsioni del modello di IA con il ground truth, possiamo misurare quanto il modello si sia avvicinato all'ottenimento dei risultati corretti.

Confronto tra le predizioni del modello e le bounding box di ground truth

Fig 1. La previsione del modello e i riquadri di delimitazione del ground truth. Immagine dell'autore.

Link to this sectionMatrice di confusione#

Una matrice di confusione è spesso utilizzata per capire quanto sia preciso un modello di rilevamento oggetti. È una tabella che mostra come le previsioni del modello corrispondano alle risposte corrette effettive (ground truth). Da questa tabella, possiamo ottenere una suddivisione di quattro componenti o risultati chiave: veri positivi, falsi positivi, falsi negativi e veri negativi.

Ecco cosa rappresentano questi componenti nella matrice di confusione:

  • Vero positivo (TP): Un oggetto e la sua posizione vengono rilevati correttamente dal modello.
  • Falso positivo (FP): Il modello ha effettuato un rilevamento, ma era errato.
  • Falso negativo (FN): Un oggetto che era effettivamente presente nell'immagine, ma il modello non è riuscito a rilevarlo.
  • Vero negativo (TN): I veri negativi si verificano quando il modello identifica correttamente l'assenza di un oggetto.

I veri negativi non sono comunemente usati nel rilevamento oggetti, poiché solitamente ignoriamo le molte regioni vuote in un'immagine. Tuttavia, sono essenziali in altri compiti di computer vision, come la classificazione di immagini, in cui il modello assegna un'etichetta all'immagine. Ad esempio, se il compito è rilevare se un'immagine contenga un gatto o meno, e il modello identifica correttamente "niente gatto" quando l'immagine non ne contiene uno, quello è un vero negativo.

Risultati della classificazione mostrati in una matrice di confusione

Fig 2. Risultati della classificazione in una matrice di confusione. Immagine dell'autore.

Link to this sectionIntersection over Union (IoU)#

Un'altra metrica vitale nella valutazione dei modelli di rilevamento oggetti è l'Intersection over Union (IoU). Per tali modelli di IA visiva, rilevare semplicemente la presenza di un oggetto in un'immagine non è sufficiente; deve anche localizzare dove si trova nell'immagine per disegnare i riquadri di delimitazione.

La metrica IoU misura quanto il riquadro previsto dal modello corrisponda al riquadro effettivo e corretto (ground truth). Il punteggio è compreso tra 0 e 1, dove 1 significa una corrispondenza perfetta e 0 nessuna sovrapposizione.

Ad esempio, una IoU più alta (come 0.80 o 0.85) significa che il riquadro previsto è una corrispondenza stretta con il riquadro di ground truth, indicando un'accurata localizzazione. Una IoU più bassa (come 0.30 o 0.25) significa che il modello non ha localizzato accuratamente l'oggetto.

Per determinare se un rilevamento ha avuto successo, utilizziamo diverse soglie. Una soglia IoU comune è 0.5, il che significa che un riquadro previsto deve sovrapporsi al riquadro di ground truth per almeno il 50% per essere considerato un vero positivo. Qualsiasi sovrapposizione al di sotto di questa soglia è considerata un falso positivo.

Diagramma che spiega l'Intersection over Union

Fig 3. Comprendere l'Intersection over Union. Immagine dell'autore.

Link to this sectionPrecisione e richiamo#

Finora abbiamo esplorato alcune metriche di valutazione di base per comprendere le prestazioni dei modelli di rilevamento oggetti. Sviluppando questo concetto, due delle metriche più importanti sono precisione e richiamo. Ci offrono un quadro chiaro di quanto siano accurati i rilevamenti del modello. Vediamo cosa sono.

I valori di precisione ci dicono quante delle previsioni del modello fossero effettivamente corrette. Rispondono alla domanda: di tutti gli oggetti che il modello ha affermato di rilevare, quanti erano veramente lì?

I valori di richiamo, d'altra parte, misurano quanto bene il modello trovi tutti gli oggetti effettivi presenti nell'immagine. Rispondono alla domanda: di tutti gli oggetti reali presenti, quanti ne ha rilevati correttamente il modello?

Insieme, precisione e richiamo ci offrono un quadro più chiaro delle prestazioni di un modello. Ad esempio, se un modello prevede 10 auto in un'immagine e 9 di esse sono effettivamente auto, ha una precisione del 90% (una previsione positiva).

Queste due metriche di valutazione comportano spesso un compromesso: un modello può ottenere un valore di precisione elevato facendo solo previsioni di cui è pienamente sicuro, ma ciò potrebbe portarlo a mancare molti oggetti, il che abbassa il livello di richiamo. Nel frattempo, può anche raggiungere un richiamo molto alto prevedendo un riquadro di delimitazione quasi ovunque, ma ciò ridurrebbe la precisione.

Diagramma che illustra precision e recall

Fig 4. Precisione e richiamo. Immagine dell'autore.

Link to this sectionPrecisione media#

Mentre precisione e richiamo ci aiutano a capire come un modello esegua singole previsioni, la precisione media (AP) può fornire una visione più ampia. Illustra come la precisione del modello cambi man mano che tenta di rilevare più oggetti e riassume le sue prestazioni in un unico numero.

Per calcolare il punteggio di precisione media, possiamo prima creare una metrica combinata simile a un grafico chiamata curva precisione-richiamo (o curva PR) per ogni tipo di oggetto. Questa curva mostra cosa succede man mano che il modello effettua più previsioni.

Considera uno scenario in cui il modello inizia rilevando solo gli oggetti più semplici o evidenti. In questa fase, la precisione è alta perché la maggior parte delle previsioni è corretta, ma il richiamo è basso poiché molti oggetti vengono ancora persi. Man mano che il modello cerca di rilevare più oggetti, inclusi quelli più difficili o rari, solitamente introduce più errori. Ciò causa un calo della precisione mentre il richiamo aumenta.

La precisione media è l'area sotto la curva (AUC della curva PR). Un'area più grande significa che il modello è migliore nel mantenere accurate le proprie previsioni, anche quando rileva più oggetti. L'AP viene calcolato separatamente per ogni etichetta di classe.

Ad esempio, in un modello in grado di rilevare auto, bici e pedoni, possiamo calcolare i valori di AP individualmente per ognuna di quelle tre categorie. Questo ci aiuta a vedere quali oggetti il modello sia bravo a rilevare e dove potrebbe ancora aver bisogno di miglioramenti.

Curva precision-recall per cinque classi diverse

Fig 5. Una curva PR per cinque diverse classi. (Fonte)

Link to this sectionPrecisione media#

Dopo aver calcolato la precisione media per ogni classe di oggetti, abbiamo ancora bisogno di un unico punteggio che rifletta le prestazioni complessive del modello in tutte le classi. Questo può essere ottenuto utilizzando la formula della precisione media. Calcola la media dei punteggi AP per ogni categoria.

Ad esempio, supponiamo che un modello di computer vision come YOLO11 raggiunga un AP di 0.827 per le auto, 0.679 per le moto, 0.355 per i camion, 0.863 per gli autobus e 0.982 per le biciclette. Usando la formula della mAP, possiamo sommare questi numeri e dividere per il numero totale di classi come segue:

mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743

Il punteggio mAP di 0.743 fornisce una soluzione semplice per giudicare quanto bene il modello esegua in tutte le classi di oggetti. Un valore vicino a 1 significa che il modello è accurato per la maggior parte delle categorie, mentre un valore inferiore suggerisce che fatica con alcune.

Link to this sectionSignificato di AP e mAP nella computer vision#

Ora che abbiamo una comprensione migliore di come AP e mAP vengano calcolati e quali siano le loro componenti, ecco una panoramica del loro significato nella computer vision:

  • Bassa AP per una classe specifica: Una bassa AP per una singola classe spesso significa che il modello fatica con quella specifica classe di oggetti. Ciò può essere dovuto a dati di addestramento insufficienti o sfide visive nelle immagini, come l'occlusione.

  • Errori di localizzazione: Un valore di mAP più alto a una soglia IoU inferiore (come mAP@0.50) combinato con un calo significativo a una soglia IoU più alta (come mAP@0.75) indica che il modello può rilevare gli oggetti ma fatica a localizzarli con precisione.

  • Overfitting: Un valore di mAP più alto sul dataset di addestramento ma un valore di mAP più basso sul dataset di validazione è un segno di overfitting, rendendo il modello inaffidabile per nuove immagini.

Link to this sectionApplicazioni reali della precisione media#

Successivamente, esploriamo come metriche chiave come la mAP possano essere d'aiuto nella creazione di casi d'uso di computer vision nel mondo reale.

Link to this sectionVeicoli autonomi: Perché un valore mAP più alto significa strade più sicure#

Quando si parla di auto a guida autonoma, il rilevamento oggetti è cruciale per identificare pedoni, segnali stradali, ciclisti e segnaletica orizzontale. Ad esempio, se un bambino attraversa improvvisamente la strada, l'auto ha pochi secondi per rilevare l'oggetto (bambino), localizzare dove si trova, seguirne il movimento e intraprendere l'azione necessaria (applicare i freni).

Modelli come YOLO11 sono progettati per il rilevamento oggetti in tempo reale in scenari ad alto rischio come questo. In questi casi, la mAP diventa una misura critica di sicurezza.

Un punteggio mAP elevato assicura che il sistema rilevi il bambino rapidamente, lo localizzi con precisione e attivi la frenata con il minimo ritardo. Una mAP bassa può significare rilevamenti mancati o pericolose classificazioni errate, come confondere il bambino con un altro piccolo oggetto.

YOLO11 che rileva pedoni sulla strada

Fig 6. Un esempio di YOLO11 utilizzato per rilevare pedoni sulla strada. (Fonte)

Link to this sectionUtilizzare la mAP per un accurato rilevamento prodotti#

Analogamente, nel retail, i modelli di rilevamento oggetti possono essere usati per automatizzare compiti come il monitoraggio delle scorte e i processi di cassa. Quando un cliente scansiona un prodotto a una cassa automatica, un errore nel rilevamento può causare frustrazione.

Un punteggio mAP elevato assicura che il modello distingua accuratamente tra prodotti simili e disegni riquadri di delimitazione precisi, anche quando gli articoli sono impacchettati strettamente. Un punteggio mAP basso può portare a scambi di persona. Ad esempio, se il modello scambia una bottiglia di succo d'arancia per una bottiglia di succo di mela visivamente simile, potrebbe risultare in una fatturazione errata e rapporti di inventario inaccurati.

I sistemi di vendita al dettaglio integrati con modelli come YOLO11 possono rilevare i prodotti in tempo reale, confrontarli con l'inventario e aggiornare istantaneamente i sistemi di back-end. In contesti retail frenetici, la mAP gioca un ruolo cruciale nel mantenere le operazioni accurate e affidabili.

Link to this sectionMigliorare l'accuratezza diagnostica con una mAP elevata nell'assistenza sanitaria#

Migliorare l'accuratezza diagnostica nell'assistenza sanitaria inizia con una rilevazione precisa nell'imaging medico. Modelli come YOLO11 possono aiutare i radiologi a individuare tumori, fratture o altre anomalie da quegli esami medici. Qui, la precisione media è una metrica essenziale per valutare l'affidabilità clinica di un modello.

Una mAP elevata indica che il modello ottiene sia un richiamo elevato (identificando la maggior parte dei problemi reali) che un'alta precisione (evitando falsi allarmi), il che è cruciale nel processo decisionale clinico. Inoltre, la soglia IoU nell'assistenza sanitaria è spesso impostata molto alta (0.85 o 0.90) per garantire un rilevamento estremamente accurato.

Tuttavia, un punteggio mAP basso può sollevare preoccupazioni. Supponiamo che un modello manchi un tumore; potrebbe ritardare la diagnosi o portare a un trattamento errato.

Link to this sectionPro e contro dell'utilizzo della mAP#

Ecco i principali vantaggi dell'utilizzo della precisione media per valutare i modelli di rilevamento oggetti:

  • Metrica standardizzata: La mAP è lo standard del settore per valutare i modelli di rilevamento oggetti. Un valore mAP consente confronti equi e coerenti tra modelli diversi.

  • Riflette le prestazioni nel mondo reale: Una mAP elevata indica che il modello eccelle nel rilevare varie classi di oggetti e mantiene prestazioni solide in scenari complessi del mondo reale.

  • Diagnostica per classe: Un punteggio mAP valuta le prestazioni di rilevamento per ogni classe individualmente. Ciò rende più facile identificare le categorie con prestazioni inferiori (come biciclette o segnali stradali) e ottimizzare il modello di conseguenza.

Sebbene ci siano vari vantaggi nell'utilizzare la metrica mAP, ci sono alcune limitazioni da considerare. Ecco alcuni fattori da tenere a mente:

  • Difficile per gli stakeholder non tecnici: I team aziendali o clinici potrebbero trovare i valori mAP astratti, a differenza di metriche più intuitive e facili da comprendere.

  • Non riflette i vincoli in tempo reale: La mAP non tiene conto della velocità di inferenza o della latenza, che sono cruciali per l'implementazione in applicazioni sensibili al tempo.

Link to this sectionPunti chiave#

Abbiamo visto che la precisione media non è solo un punteggio tecnico, ma un riflesso delle potenziali prestazioni di un modello nel mondo reale. Che si tratti di un sistema di veicoli autonomi o di una cassa retail, un punteggio mAP elevato funge da indicatore affidabile delle prestazioni di un modello e della sua preparazione pratica.

Sebbene la mAP sia una metrica essenziale e di impatto, dovrebbe essere vista come parte di una strategia di valutazione a tutto tondo. Per applicazioni critiche come l'assistenza sanitaria e la guida autonoma, non è sufficiente affidarsi esclusivamente alla mAP.

Fattori aggiuntivi come la velocità di inferenza (quanto rapidamente il modello effettua previsioni), la dimensione del modello (che incide sull'implementazione su dispositivi edge) e l'analisi qualitativa degli errori (comprendere i tipi di errori che il modello commette) devono essere presi in considerazione per garantire che il sistema sia sicuro, efficiente e veramente adatto allo scopo previsto.

Unisciti alla nostra crescente community e al repository GitHub per saperne di più sulla computer vision. Esplora le nostre pagine di soluzioni per conoscere le applicazioni della computer vision in agricoltura e dell'IA nella logistica. Dai un'occhiata alle nostre opzioni di licenza per iniziare oggi stesso con il tuo modello di computer vision!

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning