Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Punteggio F1

Scopri l'importanza del punteggio F1 nel machine learning! Scopri come bilancia precisione e richiamo per una valutazione ottimale del modello.

L'F1-Score è una metrica ampiamente utilizzata nel machine learning per valutare le prestazioni di un modello di classificazione. Combina in modo intelligente altre due metriche importanti, Precisione e Recall, in un unico valore. Essendo la media armonica di precisione e recall, l'F1-Score fornisce una misura più bilanciata delle prestazioni di un modello, specialmente quando si ha a che fare con dataset sbilanciati in cui una classe è molto più frequente dell'altra. In tali scenari, un punteggio di accuratezza elevato può essere fuorviante, ma l'F1-Score fornisce una migliore percezione dell'efficacia del modello nell'identificare correttamente la classe minoritaria.

Per comprendere appieno l'F1-Score, è essenziale capirne i componenti. La precisione risponde alla domanda: "Tra tutte le previsioni positive fatte dal modello, quante erano effettivamente corrette?" Il richiamo, d'altra parte, risponde alla domanda: "Tra tutte le istanze positive effettive, quante ne ha identificate correttamente il modello?" L'F1-Score armonizza queste due metriche, penalizzando i modelli che eccellono in una metrica a scapito significativo dell'altra. Un F1-Score raggiunge il suo valore migliore a 1 (precisione e richiamo perfetti) e il suo valore peggiore a 0. Questo equilibrio è fondamentale in molte applicazioni del mondo reale in cui sia i falsi positivi che i falsi negativi comportano costi significativi. Tracciare questa metrica durante l'addestramento del modello è una pratica standard in MLOps.

F1-Score in azione: esempi reali

L'F1-Score è fondamentale in varie applicazioni di Intelligenza Artificiale (IA) in cui le conseguenze di una classificazione errata sono gravi:

  1. Analisi di immagini mediche per il rilevamento di malattie: Si consideri un modello di intelligenza artificiale progettato per rilevare tumori cancerosi da scansioni utilizzando la computer vision (CV).

    • Un falso negativo (bassa recall) significa non riuscire a rilevare il cancro quando è presente, il che può avere gravi conseguenze per il paziente.
    • Un falso positivo (bassa precision) significa diagnosticare il cancro quando è assente, portando a stress, costi e ulteriori test invasivi non necessari.
    • L'F1-Score aiuta a valutare modelli come quelli utilizzati nelle soluzioni AI per la sanità garantendo un equilibrio tra l'individuazione dei casi reali (recall) e l'evitare diagnosi errate (precision). L'addestramento di tali modelli potrebbe coinvolgere dataset come il dataset di rilevamento di tumori cerebrali.
  2. Filtraggio di email spam: I servizi di posta elettronica utilizzano modelli di classificazione per identificare lo spam.

    • È necessario un recall elevato per intercettare più spam possibile. Perdere spam (un falso negativo) infastidisce gli utenti.
    • Un'alta precisione è fondamentale per evitare di contrassegnare le email legittime ("ham") come spam (un falso positivo). Classificare erroneamente un'email importante può essere molto problematico.
    • L'F1-Score fornisce una misura adatta per valutare l'efficacia complessiva del filtro antispam, bilanciando la necessità di filtrare la posta indesiderata senza perdere messaggi importanti. Questo spesso coinvolge tecniche di Elaborazione del Linguaggio Naturale (NLP).

In cosa differisce l'F1-Score dalle altre metriche?

Comprendere la distinzione tra il punteggio F1 e altre metriche di valutazione è fondamentale per selezionare quella giusta per il tuo progetto.

  • F1-Score vs. Accuratezza: L'accuratezza è il rapporto tra le previsioni corrette e il numero totale di previsioni. Pur essendo semplice da capire, ha scarse prestazioni su problemi di classificazione sbilanciati. L'F1-Score è spesso preferito in questi casi perché si concentra sulle prestazioni della classe positiva.
  • F1-Score vs. Precisione e Richiamo (Recall): L'F1-Score combina Precisione e Richiamo (Recall) in un'unica metrica. Tuttavia, a seconda dell'obiettivo dell'applicazione, si potrebbe voler ottimizzare per uno rispetto all'altro. Ad esempio, nello screening di sicurezza aeroportuale, massimizzare il richiamo (trovare tutte le potenziali minacce) è più critico della precisione. Comprendere questo compromesso precisione-richiamo è fondamentale.
  • F1-Score vs. precisione media (mAP): Mentre l'F1-Score valuta le prestazioni di classificazione a una specifica soglia di confidenza, mAP è la metrica standard per le attività di object detection. Il punteggio mAP riassume la curva Precision-Recall su diverse soglie, fornendo una valutazione più completa della capacità di un modello di localizzare e classificare gli oggetti. Piattaforme come Ultralytics HUB aiutano a monitorare queste metriche durante lo sviluppo del modello.
  • F1-Score vs. AUC (Area Under the Curve): L'AUC viene calcolato dalla curva Receiver Operating Characteristic (ROC) e rappresenta la capacità di un modello di distinguere tra le classi attraverso tutte le possibili soglie. L'F1-Score, al contrario, viene calcolato per una singola soglia specifica.

Sebbene mAP sia la metrica principale per i modelli di rilevamento oggetti come Ultralytics YOLO11, l'F1-Score è fondamentale per le attività di classificazione delle immagini che questi modelli possono anche eseguire. Una solida comprensione dell'F1-Score è fondamentale per qualsiasi sviluppatore che lavori su problemi di classificazione nel deep learning. Puoi confrontare le diverse prestazioni dei modelli YOLO, che sono spesso valutate su set di dati come COCO.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti