Facendo clic su "Accetta tutti i cookie", l'utente accetta la memorizzazione dei cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzarne l'utilizzo e contribuire alle nostre iniziative di marketing. Per saperne di più
Impostazioni dei cookie
Facendo clic su "Accetta tutti i cookie", l'utente accetta la memorizzazione dei cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzarne l'utilizzo e contribuire alle nostre iniziative di marketing. Per saperne di più
Conoscere l'accuratezza, la precisione e il richiamo nell'apprendimento automatico. Esplorate la matrice di confusione, il punteggio F1 e come utilizzare queste metriche di valutazione fondamentali.
L'apprendimento automatico (ML) è una branca dell'intelligenza artificiale (AI) che si concentra sulla creazione di sistemi che imparano dai dati. Svolge un ruolo centrale in molte altre aree dell'IA, tra cui la computer vision, in cui le macchine interpretano le immagini, e l'elaborazione del linguaggio naturale, in cui comprendono e generano il linguaggio umano.
Spesso questi modelli di IA utilizzano tecniche di deep learning per fare previsioni dai dati. Sebbene questi sistemi possano essere molto efficaci, non sempre producono previsioni corrette. Alcuni risultati possono essere accurati, mentre altri mancano l'obiettivo.
Sapere come si verificano questi errori è una parte fondamentale della valutazione delle prestazioni di un modello. Per misurare le prestazioni, possiamo utilizzare le metriche di valutazione del modello.
Le metriche di valutazione più comuni includono l'accuratezza (correttezza generale), la precisione (affidabilità delle previsioni positive) e il richiamo (la capacità del modello di identificare gli effettivi positivi). All'inizio possono sembrare simili, ma ognuna di esse si concentra su una parte diversa del comportamento di un modello.
In questo articolo daremo un'occhiata più da vicino a ciascuna di queste metriche delle prestazioni dei modelli di intelligenza artificiale. Esploreremo anche come si relazionano tra loro e come scegliere quella giusta per il vostro caso d'uso. Iniziamo!
Le metriche di valutazione dei modelli sono importanti nell'apprendimento automatico
All'inizio un modello di apprendimento automatico può sembrare che stia funzionando bene. Ma senza le giuste metriche di valutazione, è difficile capire quanto siano accurati i suoi risultati. Queste metriche strutturano la valutazione del modello e aiutano a rispondere a una domanda chiave: Le previsioni del modello sono utili e affidabili per un determinato compito?
Metriche come l'accuratezza, la precisione e il richiamo forniscono agli sviluppatori di IA un modo chiaro per misurare il funzionamento di un modello. Ad esempio, quando si confrontano diversi modelli, queste metriche permettono di vedere quale si comporta meglio per un compito specifico. Aiutano a valutare le prestazioni e guidano la scelta del modello più adatto agli obiettivi di un progetto di IA.
Figura 1. Flusso di lavoro per l'addestramento e la valutazione del modello(fonte)
Queste metriche rendono anche più oggettivi i confronti tra le prestazioni. Invece di basarsi su congetture o osservazioni incomplete, forniscono indicazioni misurabili sul comportamento di un modello in situazioni diverse. In questo modo, evidenziano quali aspetti delle prestazioni sono più importanti in ogni contesto.
Ad esempio, la scelta della metrica dipende spesso dall'applicazione. Nelle applicazioni sanitarie di intelligenza artificiale, il richiamo è importante perché l'obiettivo è identificare il maggior numero possibile di casi positivi, anche se alcuni negativi vengono erroneamente segnalati. Al contrario, un filtro antispam per le e-mail può privilegiare la precisione per evitare di contrassegnare erroneamente le e-mail legittime come spam.
La matrice di confusione: Il fondamento delle metriche di classificazione
La matrice di confusione è una tabella a due a due, fondamentale per la valutazione dei modelli di intelligenza artificiale. Organizza le previsioni in quattro categorie confrontando i risultati effettivi con quelli previsti (le risposte fornite dal modello).
Questo confronto fornisce una visione dettagliata delle prestazioni del modello. Costituisce la base per le principali metriche di valutazione, come la precisione e il richiamo, che vengono calcolate direttamente dai valori della matrice.
Le righe della tabella rappresentano le classi effettive e le colonne le classi previste. Ogni cella mostra il numero di risultati in quella categoria. In poche parole, mostra quante previsioni sono state corrette e i tipi di errori commessi dal modello.
La matrice di confusione è particolarmente utile quando i dati sono sbilanciati, cioè alcune categorie hanno molti più esempi di altre. È utile anche quando i diversi tipi di errori hanno costi diversi.
Ad esempio, nel rilevamento delle frodi, l'individuazione di attività fraudolente è fondamentale, ma anche l'errata segnalazione di transazioni reali può causare problemi. La matrice chiarisce la frequenza di ciascun tipo di errore.
Elementi della matrice di confusione
Ecco una panoramica dei diversi elementi di una matrice di confusione:
Vero positivo (TP): Quando il modello predice correttamente un'istanza positiva, questa viene registrata come vero positivo. Ad esempio, un modello di computer vision classifica correttamente un veicolo in un'immagine.
Vero negativo (TN): Un vero negativo si verifica quando il modello identifica correttamente un'istanza negativa. Ad esempio, un classificatore di e-mail contrassegna un messaggio regolare come non spam.
Falso positivo (FP): il modello genera un falso positivo quando prevede erroneamente un esito positivo per un'istanza che in realtà è negativa. Conosciuto anche come errore di tipo I, questo può accadere quando un sistema di rilevamento delle frodi segnala una transazione valida come fraudolenta.
Falso negativo (FN): Un falso negativo si registra quando il modello non riesce a rilevare un caso positivo e lo predice erroneamente come negativo. Detto anche errore di tipo II, può verificarsi quando uno strumento diagnostico non rileva una malattia in un paziente che in realtà è malato.
Figura 2. Gli elementi di una matrice di confusione(Fonte)
Rappresentazione visiva e interpretazione della matrice di confusione
Una matrice di confusione viene visualizzata in formato griglia. L'asse verticale mostra le classi reali e l'asse orizzontale le classi previste. Le previsioni corrette appaiono lungo la diagonale, rappresentando i veri positivi e i veri negativi.
Gli errori ricadono al di fuori della diagonale, coprendo i falsi positivi e i falsi negativi. Questa struttura consente di individuare facilmente i punti di forza e di debolezza.
Che cos'è l'accuratezza nell'apprendimento automatico?
L'accuratezza è una delle metriche più utilizzate per valutare le prestazioni di un modello di apprendimento automatico. Misura la frequenza con cui le previsioni sono corrette in tutte le classi. In altre parole, risponde a una semplice domanda: Tra tutte le previsioni fatte dal modello di intelligenza artificiale, quante erano corrette?
La formula per l'accuratezza è il numero di previsioni corrette (che include sia i veri positivi che i veri negativi) diviso per il numero totale di previsioni. L'accuratezza è semplice da calcolare e facile da capire, il che la rende un punto di partenza comune nella valutazione dei modelli.
In generale, l'accuratezza è affidabile quando si gestiscono insiemi di dati bilanciati. Tuttavia, l'accuratezza può spesso essere fuorviante in insiemi di dati sbilanciati in cui una classe domina sulle altre. Un modello che predice sempre la classe maggioritaria può ottenere un punteggio di accuratezza elevato, ma non riesce a rilevare altre classi minoritarie.
Ad esempio, in un set di immagini in cui solo poche immagini contengono pedoni, un modello che predice "nessun pedone" per ogni immagine può comunque raggiungere un'elevata precisione, ma non riesce a rilevare i pedoni reali.
Questo perché l'accuratezza da sola non mostra quali tipi di errori commette un modello o quanto spesso si verificano. Ecco perché è importante considerare anche metriche come la precisione e il richiamo per comprendere appieno il funzionamento di un modello di intelligenza artificiale.
Un'immersione nella precisione: Ridurre al minimo i falsi allarmi
La precisione è una metrica di valutazione chiave che misura l'accuratezza delle previsioni positive di un modello. Risponde alla domanda:Di tutte le istanze previste come positive, quante erano corrette?
La formula della precisione è il numero di veri positivi diviso per la somma dei veri positivi e dei falsi positivi. È particolarmente importante quando una previsione positiva sarebbe costosa se si rivelasse errata.
Figura 3. Confronto tra accuratezza e precisione.(Fonte)
Ad esempio, nel rilevamento delle frodi, un modello con bassa precisione può segnalare molte transazioni valide come fraudolente, creando problemi inutili sia agli utenti che ai team di assistenza. Un modello ad alta precisione riduce questo rischio, assicurando che le transazioni segnalate abbiano maggiori probabilità di essere frodi reali.
Sebbene un'elevata precisione sia positiva, i modelli che si concentrano troppo su di essa possono diventare molto selettivi, mancando i casi positivi reali. Per questo motivo la metrica della precisione viene spesso controllata insieme a quella del richiamo per mantenere le prestazioni equilibrate.
Che cos'è il richiamo?
Il richiamo è una metrica utilizzata per misurare la capacità di un modello di identificare i casi effettivamente positivi. È nota come sensibilità o tasso di veri positivi e risponde alla domanda: Di tutti i casi effettivamente positivi, quanti ne ha individuati correttamente il modello?
La formula per il richiamo è il numero di veri positivi diviso per la somma di veri positivi e falsi negativi. Un punteggio di richiamo elevato indica che il modello cattura la maggior parte dei casi realmente positivi presenti nei dati.
Il richiamo è essenziale in settori come quello sanitario, dove la mancata individuazione di una patologia può ritardare il trattamento e mettere a rischio i pazienti. Anche se alcuni casi negativi vengono segnalati in modo errato, l'identificazione di tutti i casi reali rimane la priorità assoluta.
Tuttavia, i modelli che si concentrano solo sul richiamo possono segnalare un numero eccessivo di falsi positivi, abbassando la precisione e danneggiando l'efficienza complessiva del modello. Il bilanciamento tra richiamo e precisione è fondamentale per ottenere prestazioni affidabili dei modelli di intelligenza artificiale.
L'atto di bilanciamento: Il compromesso tra precisione e richiamo
La precisione e il richiamo si muovono spesso in direzioni opposte. Quando una migliora, l'altra può diminuire. Questo compromesso è una sfida comune nelle attività di apprendimento automatico.
Un modello ad alta precisione predice qualcosa come positivo solo quando è sicuro. In questo modo si riducono i falsi allarmi, ma possono sfuggire i veri positivi, il che abbassa il richiamo. Un modello che tenta di cogliere ogni positivo aumenta il richiamo, ma rischia un maggior numero di falsi allarmi, con conseguente riduzione della precisione.
Questo compromesso diventa più chiaro quando si regola la soglia decisionale del modello. La soglia è il limite che il sistema utilizza per trasformare un punteggio o una probabilità in un'azione o in un'etichetta. Abbassando la soglia, il sistema agisce più spesso in modo positivo, il che può aumentare il richiamo, ma può ridurre la precisione. L'innalzamento della soglia ha l'effetto opposto: il modello predice meno positivi, la precisione migliora, ma il richiamo di solito diminuisce.
Supponiamo che stiate lavorando al rilevamento dello spam. Il modello deve bilanciare il rischio di far entrare lo spam nella casella di posta con il rischio di bloccare le e-mail reali. Un filtro rigoroso potrebbe comunque perdere dello spam, mentre uno più indulgente potrebbe bloccare accidentalmente dei messaggi legittimi. Il giusto equilibrio dipende dal caso d'uso e dal costo di ciascun tipo di errore.
Il significato della curva precisione-richiamo
La curva precisione-richiamo o curva PR mostra come la precisione e il richiamo cambiano al variare della soglia decisionale del modello. Ogni punto rappresenta un diverso compromesso tra i due. La curva PR è particolarmente utile per gli insiemi di dati sbilanciati, dove una classe è molto meno frequente.
Inoltre, fornisce indicazioni più significative rispetto alla curva ROC (Receiver Operating Characteristic), che mostra anche la capacità di un modello di separare i positivi dai negativi a diverse soglie di decisione. Un modello con un'elevata precisione e un elevato richiamo avrà una curva precisione-richiamo che si mantiene vicino all'angolo superiore destro, il che è generalmente ideale.
Introduzione al punteggio F1: Una metrica combinata per l'equilibrio
Il punteggio F1 fornisce un singolo valore che cattura l'equilibrio tra precisione e richiamo. Il punteggio F1 è calcolato come due volte il prodotto di precisione e richiamo, diviso per la somma di precisione e richiamo. È utile quando sono importanti sia i falsi positivi che i falsi negativi ed è utile quando si lavora con insiemi di dati sbilanciati o quando è necessaria una visione equilibrata delle prestazioni del modello.
Figura 4. Calcolo del punteggio F1 utilizzando precisione e richiamo(Fonte)
Oltre l'accuratezza, la precisione e il richiamo
Mentre l'accuratezza, la precisione e il richiamo sono essenziali, altre metriche offrono ulteriori informazioni in base al tipo di modello e alle caratteristiche del set di dati.
Ecco alcune metriche comunemente utilizzate per valutare diversi aspetti delle prestazioni:
Specificità: Misura la capacità del modello di identificare i veri negativi. È utile quando è importante evitare i falsi positivi.
AUC: L'AUC, o Area Under the Curve, fornisce un singolo punteggio che riflette la capacità del modello di distinguere tra le classi.
Log loss: Il log loss è utilizzato per misurare la fiducia del modello nel fare previsioni e penalizza maggiormente le previsioni errate fatte con un'elevata fiducia. In questo caso, la confidenza si riferisce a quanto il modello è sicuro della sua previsione.
Valutazione multietichetta: Nei compiti multietichetta, le metriche vengono mediate tra le etichette per riflettere le prestazioni complessive del modello.
Applicazione di accuratezza, precisione e richiamo nella computer vision
Ora che abbiamo una comprensione più chiara di accuratezza, precisione e richiamo, vediamo come queste metriche vengono applicate alla computer vision.
I modelli di visione artificiale come Ultralytics YOLO11 supportano compiti come il rilevamento di oggetti, in cui il modello identifica quali oggetti sono presenti in un'immagine e li localizza utilizzando caselle di delimitazione. Ogni previsione include sia l'etichetta dell'oggetto che la sua posizione, il che rende la valutazione più complessa della semplice verifica della correttezza dell'etichetta.
Figura 5. Un esempio di utilizzo di Ultralytics YOLO11 per il rilevamento di oggetti.(Fonte)
Consideriamo un'applicazione di vendita al dettaglio in cui le telecamere vengono utilizzate per tracciare automaticamente i prodotti sugli scaffali. Un modello di rilevamento degli oggetti potrebbe identificare articoli come scatole di cereali, lattine di bibite o bottiglie d'acqua e segnarne la posizione.
In questo caso, la precisione indica quanti degli elementi rilevati sono effettivamente corretti. Una precisione elevata significa che il sistema evita i falsi positivi, come ad esempio l'etichettatura di un'ombra o di un oggetto sullo sfondo come un prodotto. Il richiamo mostra quanti prodotti reali sullo scaffale il modello è riuscito a rilevare. Un'elevata precisione significa che il numero di articoli mancanti è minore, il che è fondamentale per un conteggio accurato dell'inventario.
L'accuratezza può comunque fornire una misura generale di correttezza, ma in questo tipo di contesto, la mancanza di qualche prodotto o il rilevamento di articoli che non ci sono può avere un grande impatto sulla gestione delle scorte. Ecco perché gli sviluppatori considerano insieme precisione, richiamo e accuratezza per garantire che il sistema sia affidabile e pratico per l'uso nel mondo reale.
Accuratezza, precisione e richiamo: Principali risultati
L'accuratezza, la precisione e il richiamo mostrano aspetti diversi delle prestazioni di un modello di apprendimento automatico. Affidarsi a una sola metrica può essere fuorviante.
Strumenti e metriche come la matrice di confusione, le curve precisione-richiamo e il punteggio F1 aiutano a rivelare i compromessi e a guidare le decisioni sui miglioramenti da apportare al modello di ML. Scegliendo la giusta combinazione di metriche per una specifica soluzione di IA, è possibile garantire che i modelli siano accurati, affidabili ed efficaci nelle applicazioni reali.
Esplora la nostra comunità in crescita! Consultate il nostro repository GitHub per saperne di più sull'intelligenza artificiale. Siete pronti a iniziare i vostri progetti di computer vision? Date un'occhiata alle nostre opzioni di licenza. Scoprite l'IA in agricoltura e l'IA di visione nella robotica visitando le nostre pagine dedicate alle soluzioni!