Scopri accuratezza, precisione e richiamo nel machine learning. Esplora la matrice di confusione, il punteggio F1 e come utilizzare queste metriche di valutazione vitali.

Scopri accuratezza, precisione e richiamo nel machine learning. Esplora la matrice di confusione, il punteggio F1 e come utilizzare queste metriche di valutazione vitali.
Il Machine Learning (ML) è una branca dell'intelligenza artificiale (AI) che si concentra sulla creazione di sistemi che apprendono dai dati. Svolge un ruolo centrale in molte altre aree dell'AI, tra cui la computer vision, dove le macchine interpretano le immagini, e l'elaborazione del linguaggio naturale, dove comprendono e generano il linguaggio umano.
Spesso, tali modelli di IA utilizzano tecniche di deep learning per fare previsioni a partire dai dati. Sebbene tali sistemi possano essere altamente efficaci, non sempre producono previsioni corrette. Alcuni risultati possono essere accurati, mentre altri possono mancare il bersaglio.
Sapere come si verificano questi errori è fondamentale per valutare le prestazioni di un modello. Per misurare le prestazioni, possiamo utilizzare le metriche di valutazione del modello.
Le metriche di valutazione comuni includono accuratezza (correttezza complessiva), precisione (affidabilità delle previsioni positive) e richiamo (quanto bene il modello identifica i positivi effettivi). Potrebbero sembrare simili all'inizio, ma ognuna si concentra su una parte diversa del comportamento di un modello.
In questo articolo, esamineremo più da vicino ciascuna di queste metriche di performance dei modelli di IA. Esploreremo anche come si relazionano tra loro e come scegliere quella giusta per il tuo caso d'uso. Iniziamo!
Un modello di machine learning potrebbe sembrare che stia funzionando bene all'inizio. Ma senza le giuste metriche di valutazione, è difficile capire quanto siano accurati i suoi risultati. Queste metriche danno struttura alla valutazione del modello e aiutano a rispondere a una domanda chiave: le previsioni del modello sono utili e affidabili per una determinata attività?
Metriche come accuratezza, precisione e richiamo offrono agli sviluppatori di IA un modo chiaro per misurare quanto bene sta funzionando un modello. Ad esempio, quando si confrontano modelli diversi, queste metriche consentono di vedere quale funziona meglio per un'attività specifica. Aiutano a valutare le prestazioni e a guidare la scelta del modello più adatto agli obiettivi di un progetto di IA.
Queste metriche rendono inoltre più oggettivi i confronti delle prestazioni. Invece di affidarsi a supposizioni o osservazioni incomplete, forniscono informazioni misurabili su come un modello si comporta in diverse situazioni, evidenziando quali aspetti delle prestazioni contano di più in ogni contesto.
Ad esempio, la scelta della metrica dipende spesso dall'applicazione. Nelle applicazioni di intelligenza artificiale per la sanità, il richiamo è importante perché l'obiettivo è identificare il maggior numero possibile di casi positivi, anche se alcuni negativi vengono erroneamente segnalati. Al contrario, un filtro antispam per la posta elettronica può dare la priorità alla precisione per evitare di contrassegnare erroneamente le e-mail legittime come spam.
La matrice di confusione è una tabella due per due fondamentale per la valutazione dei modelli di IA. Organizza le previsioni in quattro categorie confrontando i risultati effettivi con i risultati previsti (le risposte fornite dal modello).
Questo confronto fornisce una visione dettagliata delle prestazioni del modello. Costituisce la base per le metriche di valutazione chiave come precisione e richiamo, che vengono calcolate direttamente dai valori nella matrice.
Le righe della tabella rappresentano le classi effettive, mentre le colonne rappresentano le classi previste. Ogni cella mostra il conteggio dei risultati in quella categoria. In parole semplici, mostra quante previsioni erano corrette e i tipi di errori commessi dal modello.
La matrice di confusione è particolarmente utile quando i dati sono sbilanciati, ovvero quando alcune categorie hanno molti più esempi di altre. È utile anche quando diversi tipi di errori comportano costi diversi.
Ad esempio, nel rilevamento delle frodi, individuare l'attività fraudolenta è fondamentale, ma segnalare erroneamente transazioni reali può anche causare problemi. La matrice chiarisce la frequenza con cui si verifica ogni tipo di errore.
Ecco una panoramica dei diversi elementi in una matrice di confusione:
Una matrice di confusione viene visualizzata in un formato a griglia. L'asse verticale mostra le classi effettive e l'asse orizzontale mostra le classi previste. Le previsioni corrette appaiono lungo la diagonale, rappresentando i veri positivi e i veri negativi.
Gli errori si trovano al di fuori della diagonale, coprendo i falsi positivi e i falsi negativi. Questa struttura rende facile individuare i punti di forza e di debolezza.
L'accuratezza è una delle metriche più utilizzate per valutare le prestazioni di un modello di machine learning. Misura la frequenza con cui le previsioni sono corrette per tutte le classi. In altre parole, risponde a una semplice domanda: su tutte le previsioni fatte dal modello di IA, quante erano giuste?
La formula per l'accuratezza è il numero di previsioni corrette (che include sia i veri positivi che i veri negativi) diviso per il numero totale di previsioni. L'accuratezza è semplice da calcolare e facile da capire, il che la rende un punto di partenza comune nella valutazione del modello.
Generalmente, l'accuratezza è affidabile quando si gestiscono dataset bilanciati. Tuttavia, l'accuratezza può spesso essere fuorviante in dataset sbilanciati in cui una classe domina le altre. Un modello che prevede sempre la classe maggioritaria può comunque ottenere un punteggio di accuratezza elevato, pur non riuscendo a rilevare altre classi minoritarie.
Ad esempio, in un set di dati di immagini in cui solo poche immagini contengono pedoni, un modello che prevede "nessun pedone" per ogni immagine può comunque ottenere un'elevata accuratezza, ma fallire completamente nel rilevare i pedoni effettivi.
Questo perché l'accuratezza da sola non mostra che tipo di errori commette un modello o con quale frequenza si verificano. Ecco perché è importante esaminare anche metriche come precision e recall per comprendere appieno come funziona un modello di IA.
Precisione è una metrica di valutazione chiave che misura l'accuratezza delle previsioni positive di un modello. Risponde alla domanda: Di tutte le istanze previste come positive, quante erano corrette?
La formula della precisione è il numero di veri positivi diviso per la somma di veri positivi e falsi positivi. È particolarmente importante quando una previsione positiva sarebbe costosa se si rivelasse errata.
Ad esempio, nel rilevamento delle frodi, un modello con bassa precisione può segnalare molte transazioni valide come fraudolente, creando problemi non necessari sia per gli utenti che per i team di supporto. Un modello con alta precisione riduce questo rischio assicurandosi che le transazioni segnalate abbiano maggiori probabilità di essere frodi reali.
Sebbene un'alta precisione sia auspicabile, i modelli che si concentrano troppo su di essa possono diventare eccessivamente selettivi, tralasciando casi positivi reali. Per questo motivo, la metrica della precisione viene spesso verificata insieme al recall per mantenere bilanciate le prestazioni.
Recall è una metrica utilizzata per misurare quanto bene un modello identifica i casi positivi effettivi. È noto come sensibilità o tasso di veri positivi e risponde alla domanda: di tutte le istanze positive effettive, quante ne ha rilevate correttamente il modello?
La formula per il recall è il numero di veri positivi diviso per la somma di veri positivi e falsi negativi. Un punteggio di recall elevato mostra che il modello sta catturando la maggior parte dei casi positivi reali nei dati.
Il recall è essenziale in settori come quello sanitario, dove la mancata individuazione di una condizione può ritardare il trattamento e mettere a rischio i pazienti. Anche se alcuni casi negativi vengono erroneamente segnalati, identificare tutti i casi positivi rimane la priorità assoluta.
Tuttavia, i modelli che si concentrano solo sul richiamo possono segnalare troppi falsi positivi, il che riduce la precisione e compromette l'efficienza complessiva del modello. Bilanciare richiamo e precisione è fondamentale per prestazioni affidabili del modello AI.
Precisione e richiamo spesso si muovono in direzioni opposte. Quando uno migliora, l'altro può diminuire. Questo compromesso è una sfida comune nei task di machine learning.
Un modello ad alta precisione prevede un risultato come positivo solo quando è sicuro. Questo riduce i falsi allarmi, ma può perdere veri positivi, il che diminuisce il richiamo. Un modello che cerca di individuare ogni positivo aumenta il richiamo, ma rischia più falsi allarmi, il che diminuisce la precisione.
Questo compromesso diventa più chiaro quando si regola la soglia di decisione del modello. La soglia è il limite che un sistema utilizza per trasformare un punteggio o una probabilità in un'azione o un'etichetta. L'abbassamento della soglia fa sì che il sistema agisca positivamente più spesso, il che può aumentare il richiamo ma può ridurre la precisione. L'innalzamento della soglia ha l'effetto opposto: il modello prevede meno positivi, la precisione migliora, ma il richiamo di solito diminuisce.
Supponiamo che tu stia lavorando al rilevamento dello spam. Il modello deve bilanciare il rischio di far entrare spam nella casella di posta con il rischio di bloccare email reali. Un filtro rigoroso potrebbe comunque perdere dello spam, mentre uno più permissivo potrebbe bloccare accidentalmente messaggi legittimi. Il giusto equilibrio dipende dal caso d'uso e dal costo di ogni tipo di errore.
La curva precisione-recall, o curva PR, mostra come la precisione e il recall cambiano al variare della soglia di decisione del modello. Ogni punto rappresenta un diverso compromesso tra i due. La curva PR è particolarmente utile per i dataset sbilanciati, dove una classe è molto meno frequente.
Fornisce inoltre informazioni più significative rispetto alla curva Receiver Operating Characteristic (ROC), che mostra anche quanto bene un modello separa i positivi dai negativi a diverse soglie di decisione. Un modello con alta precisione e alto recall avrà una curva precisione-recall che rimane vicino all'angolo in alto a destra, il che è generalmente ideale.
L'F1-score fornisce un singolo valore che cattura l'equilibrio tra precisione e richiamo. L'F1-score viene calcolato come due volte il prodotto di precisione e richiamo, diviso per la somma di precisione e richiamo. È utile quando sia i falsi positivi che i falsi negativi sono importanti, ed è utile quando si lavora con dataset sbilanciati o quando è necessaria una visione equilibrata delle prestazioni del modello.
Sebbene accuratezza, precisione e richiamo siano essenziali, altre metriche offrono ulteriori informazioni in base al tipo di modello e alle caratteristiche del dataset.
Ecco alcune metriche comunemente utilizzate che aiutano a valutare diversi aspetti delle prestazioni:
Ora che abbiamo una comprensione più chiara di accuratezza, precisione e richiamo, vediamo come queste metriche vengono applicate nella computer vision.
I modelli di computer vision come Ultralytics YOLO11 supportano attività come l'object detection, in cui il modello identifica quali oggetti sono presenti in un'immagine e li localizza utilizzando bounding box. Ogni previsione include sia l'etichetta dell'oggetto sia la sua posizione, il che rende la valutazione più complessa della semplice verifica della correttezza di un'etichetta.
Considera un'applicazione di vendita al dettaglio in cui le telecamere vengono utilizzate per tracciare automaticamente i prodotti sugli scaffali. Un modello di object detection potrebbe identificare articoli come scatole di cereali, lattine di soda o bottiglie d'acqua e contrassegnarne le posizioni.
In questo caso, la precisione ci dice quanti degli elementi rilevati sono effettivamente corretti. Un'alta precisione significa che il sistema evita i falsi positivi, come etichettare un'ombra o un oggetto di sfondo come un prodotto. Il recall mostra quanti dei prodotti reali sullo scaffale il modello è riuscito a rilevare. Un alto recall significa che vengono persi meno articoli, il che è fondamentale per un conteggio accurato dell'inventario.
L'accuratezza può comunque fornire una misura generale di correttezza, ma in questo tipo di contesto, la mancanza anche di pochi prodotti o il rilevamento di articoli che non sono presenti può avere un grande impatto sulla gestione delle scorte. Ecco perché gli sviluppatori esaminano insieme precisione, recall e accuratezza per garantire che il sistema sia affidabile e pratico per l'uso nel mondo reale.
Accuratezza, precisione e recall mostrano ciascuna diversi aspetti delle prestazioni di un modello di machine learning. Affidarsi a una sola metrica può essere fuorviante.
Strumenti e metriche come la matrice di confusione, le curve precisione-richiamo e il punteggio F1 aiutano a rivelare i compromessi e a guidare le decisioni per apportare miglioramenti al modello di ML. Scegliendo la giusta combinazione di metriche per una specifica soluzione di IA, è possibile garantire che i modelli siano accurati, affidabili ed efficaci nelle applicazioni del mondo reale.
Esplora la nostra crescente community! Consulta il nostro repository GitHub per saperne di più sull'AI. Sei pronto per iniziare i tuoi progetti di computer vision? Dai un'occhiata alle nostre opzioni di licenza. Scopri l'AI in agricoltura e la Vision AI nella robotica visitando le nostre pagine delle soluzioni!