Che cos'è l'accuratezza e la precisione e il richiamo nell'apprendimento automatico Ultralytics

Il Machine Learning (ML) è una branca dell'intelligenza artificiale (AI) che si concentra sulla creazione di sistemi che apprendono dai dati. Svolge un ruolo centrale in molte altre aree dell'AI, tra cui la computer vision, dove le macchine interpretano le immagini, e l'elaborazione del linguaggio naturale, dove comprendono e generano il linguaggio umano.

Spesso, tali modelli di IA utilizzano tecniche di deep learning per fare previsioni a partire dai dati. Sebbene tali sistemi possano essere altamente efficaci, non sempre producono previsioni corrette. Alcuni risultati possono essere accurati, mentre altri possono mancare il bersaglio.

Sapere come si verificano questi errori è fondamentale per valutare le prestazioni di un modello. Per misurare le prestazioni, possiamo utilizzare le metriche di valutazione del modello.

Le metriche di valutazione comuni includono accuratezza (correttezza complessiva), precisione (affidabilità delle previsioni positive) e richiamo (quanto bene il modello identifica i positivi effettivi). Potrebbero sembrare simili all'inizio, ma ognuna si concentra su una parte diversa del comportamento di un modello.

In questo articolo, esamineremo più da vicino ciascuna di queste metriche di performance dei modelli di IA. Esploreremo anche come si relazionano tra loro e come scegliere quella giusta per il tuo caso d'uso. Iniziamo!

Le metriche di valutazione del modello sono importanti nel machine learning

Un modello di machine learning potrebbe sembrare che stia funzionando bene all'inizio. Ma senza le giuste metriche di valutazione, è difficile capire quanto siano accurati i suoi risultati. Queste metriche danno struttura alla valutazione del modello e aiutano a rispondere a una domanda chiave: le previsioni del modello sono utili e affidabili per una determinata attività?

Metriche come accuratezza, precisione e richiamo offrono agli sviluppatori di IA un modo chiaro per misurare quanto bene sta funzionando un modello. Ad esempio, quando si confrontano modelli diversi, queste metriche consentono di vedere quale funziona meglio per un'attività specifica. Aiutano a valutare le prestazioni e a guidare la scelta del modello più adatto agli obiettivi di un progetto di IA.

Fig. 1. Workflow di training e valutazione del modello (Fonte)

‍

Queste metriche rendono inoltre più oggettivi i confronti delle prestazioni. Invece di affidarsi a supposizioni o osservazioni incomplete, forniscono informazioni misurabili su come un modello si comporta in diverse situazioni, evidenziando quali aspetti delle prestazioni contano di più in ogni contesto.

Ad esempio, la scelta della metrica dipende spesso dall'applicazione. Nelle applicazioni di intelligenza artificiale per la sanità, il richiamo è importante perché l'obiettivo è identificare il maggior numero possibile di casi positivi, anche se alcuni negativi vengono erroneamente segnalati. Al contrario, un filtro antispam per la posta elettronica può dare la priorità alla precisione per evitare di contrassegnare erroneamente le e-mail legittime come spam.

La matrice di confusione: le fondamenta delle metriche di classificazione

La matrice di confusione è una tabella due per due fondamentale per la valutazione dei modelli di IA. Organizza le previsioni in quattro categorie confrontando i risultati effettivi con i risultati previsti (le risposte fornite dal modello).

Questo confronto fornisce una visione dettagliata delle prestazioni del modello. Costituisce la base per le metriche di valutazione chiave come precisione e richiamo, che vengono calcolate direttamente dai valori nella matrice.

Le righe della tabella rappresentano le classi effettive, mentre le colonne rappresentano le classi previste. Ogni cella mostra il conteggio dei risultati in quella categoria. In parole semplici, mostra quante previsioni erano corrette e i tipi di errori commessi dal modello.

La matrice di confusione è particolarmente utile quando i dati sono sbilanciati, ovvero quando alcune categorie hanno molti più esempi di altre. È utile anche quando diversi tipi di errori comportano costi diversi.

Ad esempio, nel rilevamento delle frodi, individuare l'attività fraudolenta è fondamentale, ma segnalare erroneamente transazioni reali può anche causare problemi. La matrice chiarisce la frequenza con cui si verifica ogni tipo di errore.

Elementi della matrice di confusione

Ecco una panoramica dei diversi elementi in una matrice di confusione:

Vero positivo (TP): Quando il modello prevede correttamente un'istanza positiva, viene registrato come un vero positivo. Ad esempio, un modello di computer vision classifica correttamente un veicolo in un'immagine.
Vero negativo (TN): Un vero negativo si verifica quando il modello identifica correttamente un'istanza negativa. Ad esempio, un classificatore di email contrassegna un messaggio normale come non spam.
Falso positivo (FP): Il modello genera un falso positivo quando prevede erroneamente un risultato positivo per un'istanza che è in realtà negativa. Conosciuto anche come errore di tipo I, questo può accadere quando un sistema di rilevamento frodi contrassegna una transazione valida come fraudolenta.
Falso negativo (FN): Un falso negativo viene registrato quando il modello non riesce a detect un caso positivo e lo predice erroneamente come negativo. Detto anche errore di tipo II, può verificarsi quando uno strumento diagnostico non rileva una malattia in un paziente che in realtà è malato.

Fig. 2. Gli elementi di una matrice di confusione (Fonte)

‍

Rappresentazione visiva e interpretazione della matrice di confusione.

Una matrice di confusione viene visualizzata in un formato a griglia. L'asse verticale mostra le classi effettive e l'asse orizzontale mostra le classi previste. Le previsioni corrette appaiono lungo la diagonale, rappresentando i veri positivi e i veri negativi.

Gli errori si trovano al di fuori della diagonale, coprendo i falsi positivi e i falsi negativi. Questa struttura rende facile individuare i punti di forza e di debolezza.

Cos'è l'accuratezza nel machine learning?

L'accuratezza è una delle metriche più utilizzate per valutare le prestazioni di un modello di machine learning. Misura la frequenza con cui le previsioni sono corrette per tutte le classi. In altre parole, risponde a una semplice domanda: su tutte le previsioni fatte dal modello di IA, quante erano giuste?

La formula per l'accuratezza è il numero di previsioni corrette (che include sia i veri positivi che i veri negativi) diviso per il numero totale di previsioni. L'accuratezza è semplice da calcolare e facile da capire, il che la rende un punto di partenza comune nella valutazione del modello.

In generale, l'accuratezza è affidabile quando si gestiscono insiemi di dati bilanciati. Tuttavia, l'accuratezza può spesso essere fuorviante in insiemi di dati sbilanciati in cui una classe domina sulle altre. Un modello che predice sempre la classe maggioritaria può ottenere un punteggio di accuratezza elevato pur non riuscendo a detect altre classi minoritarie.

Ad esempio, in un set di immagini in cui solo poche immagini contengono pedoni, un modello che predice "nessun pedone" per ogni immagine può comunque raggiungere un'elevata precisione, ma non riesce a detect i pedoni reali.

Questo perché l'accuratezza da sola non mostra che tipo di errori commette un modello o con quale frequenza si verificano. Ecco perché è importante esaminare anche metriche come precision e recall per comprendere appieno come funziona un modello di IA.

Analisi approfondita della precisione: ridurre al minimo i falsi allarmi

Precisione è una metrica di valutazione chiave che misura l'accuratezza delle previsioni positive di un modello. Risponde alla domanda: Di tutte le istanze previste come positive, quante erano corrette?

La formula della precisione è il numero di veri positivi diviso per la somma di veri positivi e falsi positivi. È particolarmente importante quando una previsione positiva sarebbe costosa se si rivelasse errata.

Fig. 3. Confronto tra accuratezza e precisione. (Fonte)

‍

Ad esempio, nel rilevamento delle frodi, un modello con bassa precisione può segnalare molte transazioni valide come fraudolente, creando problemi non necessari sia per gli utenti che per i team di supporto. Un modello con alta precisione riduce questo rischio assicurandosi che le transazioni segnalate abbiano maggiori probabilità di essere frodi reali.

Sebbene un'alta precisione sia auspicabile, i modelli che si concentrano troppo su di essa possono diventare eccessivamente selettivi, tralasciando casi positivi reali. Per questo motivo, la metrica della precisione viene spesso verificata insieme al recall per mantenere bilanciate le prestazioni.

Cos'è il recall?

Il richiamo è una metrica utilizzata per misurare la capacità di un modello di identificare i casi effettivamente positivi. È nota come sensibilità o tasso di veri positivi e risponde alla domanda: Di tutti i casi effettivamente positivi, quanti ne ha detect correttamente il modello?

La formula per il recall è il numero di veri positivi diviso per la somma di veri positivi e falsi negativi. Un punteggio di recall elevato mostra che il modello sta catturando la maggior parte dei casi positivi reali nei dati.

Il richiamo è essenziale in settori come quello sanitario, dove la mancata detect di una patologia può ritardare il trattamento e mettere a rischio i pazienti. Anche se alcuni casi negativi vengono segnalati in modo errato, l'identificazione di tutti i casi reali rimane la priorità assoluta.

Tuttavia, i modelli che si concentrano solo sul richiamo possono segnalare troppi falsi positivi, il che riduce la precisione e compromette l'efficienza complessiva del modello. Bilanciare richiamo e precisione è fondamentale per prestazioni affidabili del modello AI.

Il compromesso: equilibrio tra precisione e richiamo

Precisione e richiamo spesso si muovono in direzioni opposte. Quando uno migliora, l'altro può diminuire. Questo compromesso è una sfida comune nei task di machine learning.

Un modello ad alta precisione prevede un risultato come positivo solo quando è sicuro. Questo riduce i falsi allarmi, ma può perdere veri positivi, il che diminuisce il richiamo. Un modello che cerca di individuare ogni positivo aumenta il richiamo, ma rischia più falsi allarmi, il che diminuisce la precisione.

Questo compromesso diventa più chiaro quando si regola la soglia di decisione del modello. La soglia è il limite che un sistema utilizza per trasformare un punteggio o una probabilità in un'azione o un'etichetta. L'abbassamento della soglia fa sì che il sistema agisca positivamente più spesso, il che può aumentare il richiamo ma può ridurre la precisione. L'innalzamento della soglia ha l'effetto opposto: il modello prevede meno positivi, la precisione migliora, ma il richiamo di solito diminuisce.

Supponiamo che tu stia lavorando al rilevamento dello spam. Il modello deve bilanciare il rischio di far entrare spam nella casella di posta con il rischio di bloccare email reali. Un filtro rigoroso potrebbe comunque perdere dello spam, mentre uno più permissivo potrebbe bloccare accidentalmente messaggi legittimi. Il giusto equilibrio dipende dal caso d'uso e dal costo di ogni tipo di errore.

Il significato della curva precisione-richiamo

La curva precisione-recall, o curva PR, mostra come la precisione e il recall cambiano al variare della soglia di decisione del modello. Ogni punto rappresenta un diverso compromesso tra i due. La curva PR è particolarmente utile per i dataset sbilanciati, dove una classe è molto meno frequente.

Fornisce inoltre informazioni più significative rispetto alla curva Receiver Operating Characteristic (ROC), che mostra anche quanto bene un modello separa i positivi dai negativi a diverse soglie di decisione. Un modello con alta precisione e alto recall avrà una curva precisione-recall che rimane vicino all'angolo in alto a destra, il che è generalmente ideale.

Introduzione del punteggio F1: una metrica combinata per l'equilibrio

L'F1-score fornisce un singolo valore che cattura l'equilibrio tra precisione e richiamo. L'F1-score viene calcolato come due volte il prodotto di precisione e richiamo, diviso per la somma di precisione e richiamo. È utile quando sia i falsi positivi che i falsi negativi sono importanti, ed è utile quando si lavora con dataset sbilanciati o quando è necessaria una visione equilibrata delle prestazioni del modello.

Fig. 4. Calcolo del punteggio F1 utilizzando precisione e richiamo (Source)

‍

Oltre a accuratezza, precisione e richiamo

Sebbene accuratezza, precisione e richiamo siano essenziali, altre metriche offrono ulteriori informazioni in base al tipo di modello e alle caratteristiche del dataset.

Ecco alcune metriche comunemente utilizzate che aiutano a valutare diversi aspetti delle prestazioni:

Specificità: Misura quanto bene il modello identifica i negativi reali. È utile quando è importante evitare i falsi positivi.
AUC: AUC, o Area Under the Curve, fornisce un singolo punteggio che riflette la capacità del modello di distinguere tra le classi.
Log loss: La log loss viene utilizzata per misurare quanto è sicuro un modello quando fa previsioni e penalizza maggiormente le previsioni errate fatte con alta confidenza. Qui, la confidenza si riferisce a quanto è sicuro il modello della sua previsione.
Valutazione multi-label: Nelle attività multi-label, le metriche vengono mediate tra le etichette per riflettere le prestazioni complessive del modello.

Applicazione di accuratezza, precisione e richiamo nella computer vision

Ora che abbiamo una comprensione più chiara di accuratezza, precisione e richiamo, vediamo come queste metriche vengono applicate nella computer vision.

Modelli di visione artificiale come Ultralytics YOLO11 supportano compiti come il rilevamento di oggetti, in cui il modello identifica gli oggetti presenti in un'immagine e li localizza utilizzando i riquadri di delimitazione. Ogni previsione include sia l'etichetta dell'oggetto che la sua posizione, il che rende la valutazione più complessa della semplice verifica della correttezza dell'etichetta.

Figura 5. Un esempio di utilizzo di Ultralytics YOLO11 per il rilevamento di oggetti.(Fonte)

‍

Consideriamo un'applicazione di vendita al dettaglio in cui le telecamere vengono utilizzate per track automaticamente track prodotti sugli scaffali. Un modello di rilevamento degli oggetti potrebbe identificare articoli come scatole di cereali, lattine di bibite o bottiglie d'acqua e segnarne la posizione.

In questo caso, la precisione indica quanti degli elementi rilevati sono effettivamente corretti. Una precisione elevata significa che il sistema evita i falsi positivi, come ad esempio l'etichettatura di un'ombra o di un oggetto sullo sfondo come un prodotto. Il richiamo mostra quanti prodotti reali sullo scaffale il modello è riuscito a detect. Un'elevata precisione significa che il numero di articoli mancanti è minore, il che è fondamentale per un conteggio accurato dell'inventario.

L'accuratezza può comunque fornire una misura generale di correttezza, ma in questo tipo di contesto, la mancanza anche di pochi prodotti o il rilevamento di articoli che non sono presenti può avere un grande impatto sulla gestione delle scorte. Ecco perché gli sviluppatori esaminano insieme precisione, recall e accuratezza per garantire che il sistema sia affidabile e pratico per l'uso nel mondo reale.

Accuratezza, precisione e recall: Punti chiave

Accuratezza, precisione e recall mostrano ciascuna diversi aspetti delle prestazioni di un modello di machine learning. Affidarsi a una sola metrica può essere fuorviante.

Strumenti e metriche come la matrice di confusione, le curve precisione-richiamo e il punteggio F1 aiutano a rivelare i compromessi e a guidare le decisioni per apportare miglioramenti al modello di ML. Scegliendo la giusta combinazione di metriche per una specifica soluzione di IA, è possibile garantire che i modelli siano accurati, affidabili ed efficaci nelle applicazioni del mondo reale.

Esplora la nostra crescente community! Consulta il nostro repository GitHub per saperne di più sull'AI. Sei pronto per iniziare i tuoi progetti di computer vision? Dai un'occhiata alle nostre opzioni di licenza. Scopri l'AI in agricoltura e la Vision AI nella robotica visitando le nostre pagine delle soluzioni!

Accuratezza vs. precisione vs. recall nel machine learning

Le metriche di valutazione del modello sono importanti nel machine learning

La matrice di confusione: le fondamenta delle metriche di classificazione

Elementi della matrice di confusione

Rappresentazione visiva e interpretazione della matrice di confusione.

Cos'è l'accuratezza nel machine learning?

Analisi approfondita della precisione: ridurre al minimo i falsi allarmi

Cos'è il recall?

Il compromesso: equilibrio tra precisione e richiamo

Il significato della curva precisione-richiamo

Introduzione del punteggio F1: una metrica combinata per l'equilibrio

Oltre a accuratezza, precisione e richiamo

Applicazione di accuratezza, precisione e richiamo nella computer vision

Accuratezza, precisione e recall: Punti chiave

Leggi di più in questa categoria

Che cos'è la corrispondenza delle immagini nella Vision AI? Una rapida introduzione

Un'introduzione al campo emergente dell'IA neuro-simbolica

Dai bit ai qubit: Come l'ottimizzazione quantistica sta ridisegnando l'IA

Costruiamo insieme il futuro
dell'AI!

Accuratezza vs. precisione vs. recall nel machine learning

Le metriche di valutazione del modello sono importanti nel machine learning

La matrice di confusione: le fondamenta delle metriche di classificazione

Elementi della matrice di confusione

Rappresentazione visiva e interpretazione della matrice di confusione.

Cos'è l'accuratezza nel machine learning?

Analisi approfondita della precisione: ridurre al minimo i falsi allarmi

Cos'è il recall?

Il compromesso: equilibrio tra precisione e richiamo

Il significato della curva precisione-richiamo

Introduzione del punteggio F1: una metrica combinata per l'equilibrio

Oltre a accuratezza, precisione e richiamo

Applicazione di accuratezza, precisione e richiamo nella computer vision

Accuratezza, precisione e recall: Punti chiave

Leggi di più in questa categoria

Che cos'è la corrispondenza delle immagini nella Vision AI? Una rapida introduzione

Un'introduzione al campo emergente dell'IA neuro-simbolica

Dai bit ai qubit: Come l'ottimizzazione quantistica sta ridisegnando l'IA

Costruiamo insieme il futuro dell'AI!

Costruiamo insieme il futuro
dell'AI!