Accuratezza vs. precisione vs. recall nel machine learning
Scopri Accuratezza, Precisione e Recall nel machine learning. Esplora la Confusion Matrix, F1 Score e come utilizzare queste metriche di valutazione vitali.

L'apprendimento automatico (ML) è una branca dell'intelligenza artificiale (AI) che si concentra sulla creazione di sistemi che imparano dai dati. Svolge un ruolo centrale in molte altre aree dell'AI, inclusa la visione artificiale, dove le macchine interpretano le immagini, e l'elaborazione del linguaggio naturale, dove comprendono e generano il linguaggio umano.
Spesso, tali modelli di AI utilizzano tecniche di apprendimento profondo per effettuare previsioni basate sui dati. Sebbene tali sistemi possano essere altamente efficaci, non producono sempre previsioni corrette. Alcuni output possono essere accurati, mentre altri mancano il bersaglio.
Sapere come si verificano questi errori è una parte fondamentale della valutazione delle prestazioni di un modello. Per misurare le prestazioni, possiamo utilizzare metriche di valutazione del modello.
Le metriche di valutazione comuni includono l'accuratezza (correttezza complessiva), la precisione (affidabilità delle previsioni positive) e il richiamo (quanto bene il modello identifica i positivi effettivi). Possono sembrare simili a prima vista, ma ognuna si concentra su un aspetto diverso del comportamento di un modello.
In questo articolo, esamineremo più da vicino ciascuna di queste metriche di prestazione dei modelli di AI. Esploreremo anche come sono correlate tra loro e come scegliere quella giusta per il tuo caso d'uso. Cominciamo!
Link to this sectionLe metriche di valutazione del modello sono importanti nell'apprendimento automatico#
Un modello di apprendimento automatico potrebbe sembrare funzionare bene all'inizio. Ma senza le giuste metriche di valutazione, è difficile capire quanto siano accurati i suoi risultati. Queste metriche danno struttura alla valutazione del modello e aiutano a rispondere a una domanda chiave: le previsioni del modello sono utili e affidabili per un determinato compito?
Metriche come accuratezza, precisione e richiamo offrono agli sviluppatori di AI un modo chiaro per misurare il funzionamento di un modello. Ad esempio, quando si confrontano diversi modelli, queste metriche rendono possibile vedere quale funziona meglio per un compito specifico. Aiutano a valutare le prestazioni e guidano la scelta del modello che meglio si adatta agli obiettivi di un progetto di AI.

Fig 1. Flusso di lavoro di addestramento e valutazione del modello (Fonte)
Queste metriche rendono anche i confronti delle prestazioni più oggettivi. Invece di affidarsi a congetture o osservazioni incomplete, forniscono approfondimenti misurabili su come si comporta un modello in diverse situazioni. In questo modo, evidenziano quali aspetti delle prestazioni contano di più in ogni contesto.
Ad esempio, la scelta della metrica dipende spesso dall'applicazione. Nelle applicazioni sanitarie di AI, il richiamo è importante perché l'obiettivo è identificare il maggior numero possibile di casi positivi, anche se alcuni negativi vengono erroneamente segnalati. Al contrario, un filtro antispam per email potrebbe dare priorità alla precisione per evitare di contrassegnare erroneamente email legittime come spam.
Link to this sectionLa matrice di confusione: Il fondamento delle metriche di classificazione#
La matrice di confusione è una tabella due per due che è fondamentale per valutare i modelli di AI. Organizza le previsioni in quattro categorie confrontando i risultati effettivi con quelli previsti (le risposte che il modello fornisce).
Questo confronto fornisce una visione dettagliata delle prestazioni del modello. Forma la base per metriche di valutazione chiave come precisione e richiamo, che vengono calcolate direttamente dai valori nella matrice.
Le righe della tabella rappresentano le classi effettive e le colonne rappresentano le classi previste. Ogni cella mostra il conteggio dei risultati in quella categoria. In poche parole, mostra quante previsioni sono state corrette e i tipi di errori commessi dal modello.
La matrice di confusione è particolarmente utile quando i dati sono sbilanciati, il che significa che alcune categorie hanno molti più esempi di altre. È anche utile quando diversi tipi di errori comportano costi diversi.
Ad esempio, nel rilevamento delle frodi, catturare attività fraudolente è fondamentale, ma segnalare erroneamente transazioni reali può anche causare problemi. La matrice chiarisce con quale frequenza si verifica ogni tipo di errore.
Link to this sectionElementi della matrice di confusione#
Ecco una panoramica dei diversi elementi in una matrice di confusione:
- Vero positivo (TP): Quando il modello prevede correttamente un'istanza positiva, viene registrato come vero positivo. Ad esempio, un modello di visione artificiale classifica correttamente un veicolo in un'immagine.
- Vero negativo (TN): Un vero negativo si verifica quando il modello identifica correttamente un'istanza negativa. Ad esempio, un classificatore di email contrassegna un messaggio regolare come non spam.
- Falso positivo (FP): Il modello genera un falso positivo quando prevede erroneamente un esito positivo per un'istanza che è in realtà negativa. Conosciuto anche come Errore di Tipo I, questo può accadere quando un sistema di rilevamento frodi segnala una transazione valida come fraudolenta.
- Falso negativo (FN): Un falso negativo viene registrato quando il modello non riesce a rilevare un caso positivo e lo prevede erroneamente come negativo. Chiamato anche Errore di Tipo II, questo può verificarsi quando uno strumento diagnostico non rileva una malattia in un paziente che è effettivamente malato.

Fig 2. Gli elementi di una matrice di confusione (Fonte)
Link to this sectionRappresentazione visiva e interpretazione della matrice di confusione#
Una matrice di confusione viene visualizzata in formato griglia. L'asse verticale mostra le classi effettive e l'asse orizzontale mostra le classi previste. Le previsioni corrette appaiono lungo la diagonale, rappresentando veri positivi e veri negativi.
Gli errori cadono fuori dalla diagonale, coprendo falsi positivi e falsi negativi. Questa struttura rende facile individuare punti di forza e debolezze.
Link to this sectionCos'è l'accuratezza nell'apprendimento automatico?#
L'accuratezza è una delle metriche più utilizzate per valutare le prestazioni di un modello di apprendimento automatico. Misura quanto spesso le previsioni sono corrette in tutte le classi. In altre parole, risponde a una domanda semplice: su tutte le previsioni effettuate dal modello di AI, quante erano giuste?
La formula per l'accuratezza è il numero di previsioni corrette (che include sia veri positivi che veri negativi) diviso per il numero totale di previsioni. L'accuratezza è semplice da calcolare e facile da comprendere, il che la rende un punto di partenza comune nella valutazione del modello.
Generalmente, l'accuratezza è affidabile quando si gestiscono set di dati bilanciati. Tuttavia, l'accuratezza può spesso essere fuorviante in set di dati sbilanciati in cui una classe domina le altre. Un modello che prevede sempre la classe di maggioranza può comunque ottenere un punteggio di accuratezza elevato pur non riuscendo a rilevare altre classi di minoranza.
Ad esempio, in un set di dati di immagini in cui solo poche immagini contengono pedoni, un modello che prevede "nessun pedone" per ogni immagine può comunque ottenere un'accuratezza elevata ma non riuscire completamente a rilevare i pedoni effettivi.
Questo perché l'accuratezza da sola non mostra che tipo di errori commette un modello o quanto spesso accadono. Ecco perché è importante guardare anche a metriche come precisione e richiamo per comprendere appieno quanto bene funzioni un modello di AI.
Link to this sectionApprofondimento sulla precisione: Ridurre al minimo i falsi allarmi#
La precisione è una metrica di valutazione chiave che misura l'accuratezza delle previsioni positive di un modello. Risponde alla domanda: di tutte le istanze previste come positive, quante erano corrette?
La formula della precisione è il numero di veri positivi diviso per la somma di veri positivi e falsi positivi. È particolarmente importante quando una previsione positiva sarebbe costosa se si rivelasse sbagliata.

Fig 3. Confronto tra accuratezza e precisione. (Fonte)
Ad esempio, nel rilevamento delle frodi, un modello con bassa precisione può segnalare molte transazioni valide come fraudolente, creando problemi non necessari sia agli utenti che ai team di supporto. Un modello con alta precisione riduce questo rischio assicurandosi che le transazioni segnalate abbiano maggiori probabilità di essere effettivamente frodi.
Sebbene un'alta precisione sia positiva, i modelli che si concentrano troppo su di essa possono diventare molto selettivi, perdendo casi positivi effettivi. Ecco perché la metrica di precisione viene spesso controllata insieme al richiamo per mantenere le prestazioni bilanciate.
Link to this sectionCos'è il richiamo?#
Il richiamo è una metrica utilizzata per misurare quanto bene un modello identifica casi positivi effettivi. È noto come sensibilità o tasso di veri positivi e risponde alla domanda: di tutte le istanze positive effettive, quante ne ha rilevate correttamente il modello?
La formula per il richiamo è il numero di veri positivi diviso per la somma di veri positivi e falsi negativi. Un punteggio di richiamo elevato mostra che il modello sta catturando la maggior parte dei casi positivi reali nei dati.
Il richiamo è essenziale in settori come la sanità, dove non riuscire a rilevare una condizione può ritardare il trattamento e mettere a rischio i pazienti. Anche se alcuni casi negativi vengono segnalati erroneamente, identificare tutti i casi veri rimane la priorità principale.
Tuttavia, i modelli che si concentrano solo sul richiamo possono segnalare troppi falsi positivi, il che riduce la precisione e danneggia l'efficienza complessiva del modello. Bilanciare richiamo e precisione è fondamentale per una prestazione del modello di AI affidabile.
Link to this sectionL'atto di equilibrio: Compromesso tra precisione e richiamo#
Precisione e richiamo spesso si muovono in direzioni opposte. Quando uno migliora, l'altro può diminuire. Questo compromesso è una sfida comune nei compiti di apprendimento automatico.
Un modello ad alta precisione prevede qualcosa come positivo solo quando è sicuro. Ciò riduce i falsi allarmi ma può perdere positivi reali, il che riduce il richiamo. Un modello che cerca di catturare ogni positivo aumenta il richiamo ma rischia più falsi allarmi, il che riduce la precisione.
Questo compromesso diventa più chiaro quando regoli la soglia decisionale del modello. La soglia è il limite che un sistema utilizza per trasformare un punteggio o una probabilità in un'azione o etichetta. Abbassare la soglia fa sì che il sistema agisca in modo positivo più spesso, il che può aumentare il richiamo ma può ridurre la precisione. Alzare la soglia ha l'effetto opposto: il modello prevede meno positivi, la precisione migliora, ma il richiamo solitamente scende.
Supponiamo che tu stia lavorando al rilevamento dello spam. Il modello deve bilanciare il rischio di far entrare lo spam nella posta in arrivo con il rischio di bloccare email reali. Un filtro rigoroso potrebbe comunque perdere un po' di spam, mentre uno più permissivo potrebbe bloccare accidentalmente messaggi legittimi. L'equilibrio giusto dipende dal caso d'uso e dal costo di ciascun tipo di errore.
Link to this sectionIl significato della curva precisione-richiamo#
La curva precisione-richiamo o curva PR mostra come la precisione e il richiamo cambiano al variare della soglia decisionale del modello. Ogni punto rappresenta un compromesso diverso tra i due. La curva PR è particolarmente utile per set di dati sbilanciati, dove una classe è molto meno frequente.
Fornisce anche una visione più significativa rispetto alla curva Caratteristica Operativa del Ricevitore (ROC), che mostra anche quanto bene un modello separa i positivi dai negativi a diverse soglie decisionali. Un modello con sia alta precisione che alto richiamo avrà una curva precisione-richiamo che rimane vicino all'angolo superiore destro, che è generalmente l'ideale.
Link to this sectionIntroduzione al punteggio F1: Una metrica combinata per l'equilibrio#
Il punteggio F1 fornisce un singolo valore che cattura l'equilibrio tra precisione e richiamo. Il punteggio F1 è calcolato come due volte il prodotto di precisione e richiamo, diviso per la somma di precisione e richiamo. È utile quando sia i falsi positivi che i falsi negativi contano, ed è utile quando si lavora con set di dati sbilanciati o quando è necessaria una visione bilanciata delle prestazioni del modello.

Fig 4. Calcolo del punteggio F1 utilizzando precisione e richiamo (Fonte)
Link to this sectionOltre all'accuratezza, alla precisione e al richiamo#
Mentre accuratezza, precisione e richiamo sono essenziali, altre metriche offrono ulteriori approfondimenti basati sul tipo di modello e sulle caratteristiche del set di dati.
Ecco alcune metriche comunemente utilizzate che aiutano a valutare diversi aspetti delle prestazioni:
- Specificità: Misura quanto bene il modello identifica i negativi effettivi. È utile quando evitare i falsi positivi è importante.
- AUC: AUC, o Area Sotto la Curva, fornisce un singolo punteggio che riflette quanto bene il modello riesce a distinguere tra le classi.
- Log loss: La log loss viene utilizzata per misurare quanto sia sicuro un modello quando effettua previsioni e penalizza maggiormente le previsioni errate fatte con alta sicurezza. Qui, la confidenza si riferisce a quanto il modello sia sicuro della sua previsione.
- Valutazione multi-etichetta: Nei compiti multi-etichetta, le metriche vengono mediate tra le etichette per riflettere le prestazioni complessive del modello.
Link to this sectionApplicazione di accuratezza, precisione e richiamo nella visione artificiale#
Ora che abbiamo una comprensione più chiara di accuratezza, precisione e richiamo, vediamo come queste metriche vengono applicate nella visione artificiale.
I modelli di visione artificiale come Ultralytics YOLO11 supportano compiti come il rilevamento di oggetti, in cui il modello identifica quali oggetti sono presenti in un'immagine e li localizza utilizzando riquadri di delimitazione. Ogni previsione include sia l'etichetta dell'oggetto che la sua posizione, il che rende la valutazione più complessa del semplice controllo se un'etichetta sia corretta.

Fig 5. Un esempio di utilizzo di Ultralytics YOLO11 per il rilevamento di oggetti. (Fonte)
Considera un'applicazione di vendita al dettaglio in cui le telecamere vengono utilizzate per tracciare automaticamente i prodotti sugli scaffali. Un modello di rilevamento oggetti potrebbe identificare articoli come scatole di cereali, lattine di soda o bottiglie d'acqua e contrassegnarne le posizioni.
In questo caso, la precisione ci dice quanti degli articoli rilevati sono effettivamente corretti. Un'alta precisione significa che il sistema evita falsi positivi, come etichettare un'ombra o un oggetto di sfondo come un prodotto. Il richiamo mostra quanti dei prodotti reali sullo scaffale il modello è riuscito a rilevare. Un alto richiamo significa che vengono persi meno articoli, il che è fondamentale per conteggi di inventario accurati.
L'accuratezza può ancora fornire una misura generale della correttezza, ma in questo tipo di contesto, perdere anche solo pochi prodotti o rilevare articoli che non ci sono può avere un grande impatto sulla gestione delle scorte. Ecco perché gli sviluppatori guardano a precisione, richiamo e accuratezza insieme per garantire che il sistema sia sia affidabile che pratico per l'uso nel mondo reale.
Link to this sectionAccuratezza, precisione e richiamo: Punti chiave#
Accuratezza, precisione e richiamo mostrano ciascuno aspetti diversi delle prestazioni di un modello di apprendimento automatico. Fare affidamento su una sola metrica può essere fuorviante.
Strumenti e metriche come la matrice di confusione, le curve precisione-richiamo e il punteggio F1 aiutano a rivelare i compromessi e a guidare le decisioni per apportare miglioramenti al modello di ML. Scegliendo la giusta combinazione di metriche per una specifica soluzione di AI, puoi garantire che i modelli siano accurati, affidabili ed efficaci nelle applicazioni del mondo reale.
Esplora la nostra community in crescita! Dai un'occhiata al nostro repository GitHub per saperne di più sull'AI. Sei pronto per iniziare i tuoi progetti di visione artificiale? Dai un'occhiata alle nostre opzioni di licenza. Scopri l'AI in agricoltura e la visione AI nella robotica visitando le nostre pagine di soluzioni!






