Glossario

Dati di Test

Scopri il ruolo fondamentale dei dati di test nell'apprendimento automatico. Impara a valutare le prestazioni Ultralytics utilizzando set di dati imparziali per garantire l'accuratezza nel mondo reale.

I dati di test sono un sottoinsieme specifico di un set di dati più ampio, riservato esclusivamente alla valutazione delle prestazioni finali di un modello di machine learning (ML). A differenza dei dati utilizzati durante le fasi di apprendimento precedenti, i dati di test rimangono completamente "invisibili" all'algoritmo fino alla fine del ciclo di sviluppo. Questo isolamento è fondamentale perché fornisce una valutazione imparziale di quanto un modello di visione artificiale (CV) o altro sistema di IA sia in grado di generalizzare nuovi input del mondo reale. Simulando un ambiente di produzione, i dati di test aiutano gli sviluppatori a verificare che il loro modello abbia realmente appreso i modelli sottostanti piuttosto che limitarsi a memorizzare gli esempi di addestramento .

Il ruolo dei dati di test nel ciclo di vita dell'ML

Nel flusso di lavoro standard dell'apprendimento automatico, i dati sono tipicamente suddivisi in tre categorie distinte, ciascuna delle quali ha uno scopo specifico. Comprendere la differenza tra queste suddivisioni è fondamentale per costruire sistemi di intelligenza artificiale (IA) robusti.

Dati di addestramento: questa è la parte più consistente del set di dati, utilizzata per addestrare il modello. L'algoritmo regola in modo iterativo i propri parametri interni, o pesi, per minimizzare gli errori su questo specifico insieme di esempi.
Dati di validazione: questo sottoinsieme viene utilizzato frequentemente durante il processo di addestramento per mettere a punto gli iperparametri e guidare le decisioni relative all'architettura . Funge da controllo intermedio per prevenire l' overfitting, ovvero quando un modello funziona bene sui dati di addestramento ma fallisce sui nuovi dati.
Dati di test: si tratta dell'esame finale per il modello. Non vengono mai utilizzati per aggiornare i pesi o ottimizzare le impostazioni. La valutazione dei dati di test fornisce metriche di prestazione definitive, quali accuratezza, richiamo e precisione media (mAP), che gli stakeholder utilizzano per decidere se un modello è pronto per l' implementazione.

Una corretta gestione di queste suddivisioni è spesso facilitata da strumenti come la Ultralytics , che è in grado di organizzare automaticamente i set di dati caricati in queste categorie essenziali per garantire una rigorosa valutazione del modello.

Importanza di una valutazione imparziale

Il valore principale dei dati di test risiede nella loro capacità di detect problemi di distorsione e varianza dei set di dati. Se un modello raggiunge un'accuratezza del 99% sui dati di addestramento ma solo del 60% sui dati di test, ciò indica un'elevata varianza (overfitting). Al contrario, scarse prestazioni su entrambi suggeriscono un underfitting.

L'utilizzo di un set di test designato è conforme ai principi scientifici di riproducibilità e obiettività. Senza un set di test incontaminato , gli sviluppatori rischiano di "insegnare al test", facendo effettivamente trapelare informazioni dalla fase di valutazione alla fase di addestramento, un fenomeno noto come fuga di dati. Ciò si traduce in stime delle prestazioni eccessivamente ottimistiche che crollano quando il modello si confronta con dati reali.

Applicazioni nel mondo reale

I dati di test sono essenziali in tutti i settori che utilizzano l'intelligenza artificiale per garantire la sicurezza e l'affidabilità prima che i sistemi entrino in funzione.

Guida autonoma: nello sviluppo di veicoli autonomi, i dati di addestramento potrebbero consistere in milioni di chilometri percorsi in autostrada con tempo sereno. I dati di prova, tuttavia, devono includere scenari rari e impegnativi, come neve abbondante, ostacoli improvvisi o segnali stradali confusi, che l'auto non ha mai "visto" esplicitamente durante l'addestramento. Ciò garantisce che il sistema di rilevamento degli oggetti possa reagire in modo sicuro in ambienti imprevedibili.
Diagnostica sanitaria: quando si crea un modello per il rilevamento dei tumori nell'imaging medico, il set di addestramento potrebbe provenire dal database di un ospedale specifico. Per verificare che il modello sia robusto e sicuro per l' uso generale, i dati di test dovrebbero idealmente comprendere scansioni provenienti da diversi ospedali, effettuate con macchinari diversi e rappresentative di una popolazione di pazienti diversificata. Questa validazione esterna conferma che l'IA non è influenzata da un tipo specifico di apparecchiatura o popolazione.

Valutazione delle prestazioni con il codice

Utilizzando il ultralytics pacchetto, è possibile valutare facilmente le prestazioni di un modello su un set di dati escluso. Mentre il val La modalità viene spesso utilizzata per la convalida durante l'addestramento, ma può anche essere configurata per essere eseguita su una specifica divisione di test definita nel tuo Configurazione YAML del set di dati.

Ecco come valutare un modello YOLO26 pre-addestrato per ottenere metriche come mAP50:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Evaluate the model's performance on the validation set
# (Note: In a strict testing workflow, you would point 'data'
# to a YAML that defines a specific 'test' split and use split='test')
metrics = model.val(data="coco8.yaml")

# Print a specific metric, e.g., mAP at 50-95% IoU
print(f"Mean Average Precision (mAP50-95): {metrics.box.map}")

Questo processo genera metriche complete, consentendo agli sviluppatori di confrontare oggettivamente diverse architetture, come YOLO26 e YOLO11, e garantire che la soluzione scelta soddisfi gli obiettivi definiti dal progetto. Test rigorosi sono l'ultimo passo fondamentale per garantire il rispetto di elevati standard di sicurezza dell'IA.

Dati di Test

Addestrare i modelliYOLO di Ultralytics per ottimizzare i flussi di lavoro in tutti i settori industriali

Soluzione di licenza aziendale flessibile per potenziare la tua innovazione

Addestrare modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Il ruolo dei dati di test nel ciclo di vita dell'ML

Importanza di una valutazione imparziale

Applicazioni nel mondo reale

Valutazione delle prestazioni con il codice

Leggi di più in questa categoria

12 casi d'uso delle immagini aeree basati sulla visione artificiale

Che cos'è la stima della profondità monoculare? Una panoramica

Uno sguardo all'utilizzoYOLO Ultralytics per il rilevamento delle minacce tramite IA

Unitevi alla comunità di Ultralytics