Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Dati di validazione

Ottimizza i modelli di machine learning con i dati di validazione per prevenire l'overfitting, ottimizzare gli iperparametri e garantire prestazioni robuste nel mondo reale.

I dati di validazione sono un campione di dati tenuto separato dal processo di training che viene utilizzato per fornire una valutazione imparziale dell'adattamento di un modello durante la messa a punto dei suoi iperparametri. Il ruolo principale del set di validazione è quello di guidare lo sviluppo di un modello di machine learning (ML) offrendo una valutazione frequente e indipendente delle sue prestazioni. Questo ciclo di feedback è essenziale per la costruzione di modelli che non solo funzionino bene sui dati che hanno visto, ma che si generalizzino efficacemente anche su dati nuovi e non visti, un concetto centrale per la creazione di sistemi di Intelligenza Artificiale (AI) robusti.

Il ruolo dei dati di validazione

Lo scopo principale dei dati di validazione è prevenire l'overfitting. L'overfitting si verifica quando un modello apprende troppo bene i dati di training, catturando rumore e dettagli che non si applicano a nuovi dati, compromettendone così le prestazioni. Testando il modello rispetto al set di validazione a intervalli regolari (ad esempio, dopo ogni epoca), gli sviluppatori possono monitorare il suo errore di generalizzazione. Se le prestazioni sui dati di training continuano a migliorare mentre le prestazioni sui dati di validazione ristagnano o peggiorano, è un chiaro segno di overfitting.

Questo processo di valutazione è fondamentale per la regolazione degli iperparametri. Gli iperparametri sono impostazioni di configurazione esterne al modello, come il tasso di apprendimento o la dimensione del batch, che non vengono apprese dai dati. Il set di validazione consente di sperimentare diverse combinazioni di iperparametri per trovare l'insieme che produce le migliori prestazioni. Questo processo iterativo è una parte fondamentale della selezione e dell'ottimizzazione del modello.

Dati di validazione vs. Dati di training e di test

In un tipico progetto di ML, il dataset è suddiviso in tre sottoinsiemi e comprendere i loro ruoli distinti è fondamentale. Un approccio comune alla suddivisione dei dati è allocare il 70% per il training, il 15% per la validazione e il 15% per il testing.

  • Dati di addestramento: Questa è la porzione più grande dei dati, utilizzata per insegnare al modello. Il modello apprende iterativamente schemi, caratteristiche e relazioni da questo dataset regolando i suoi pesi del modello interni.
  • Dati di validazione: Questo sottoinsieme separato viene utilizzato per fornire una valutazione imparziale durante il processo di addestramento. Aiuta a ottimizzare gli iperparametri e a prendere decisioni chiave, come quando implementare l'early stopping per prevenire l'overfitting. Nell'ecosistema Ultralytics, questa valutazione viene gestita nella modalità di validazione.
  • Dati di Test (Test Data): Questo dataset viene tenuto da parte fino a quando il modello non è completamente addestrato e ottimizzato. Viene utilizzato solo una volta per fornire una valutazione finale e imparziale delle prestazioni del modello. Le prestazioni del set di test indicano come ci si aspetta che il modello si comporti in uno scenario di deployment reale.

Mantenere una rigorosa separazione, soprattutto tra i set di convalida e di test, è fondamentale per valutare accuratamente le capacità di un modello ed evitare il compromesso tra bias e varianza.

Esempi reali

  1. Computer Vision Rilevamento di oggetti: Quando si addestra un modello Ultralytics YOLO per il rilevamento di oggetti nelle immagini (ad esempio, utilizzando il dataset VisDrone), una parte delle immagini etichettate viene messa da parte come dati di convalida. Durante l'addestramento, la mAP (precisione media media) del modello viene calcolata su questo set di convalida dopo ogni epoca. Questa mAP di convalida aiuta a decidere quando interrompere l'addestramento o quale set di tecniche di aumento dei dati funziona meglio, prima di un controllo finale delle prestazioni sul set di test. Strategie efficaci di valutazione del modello si basano fortemente su questa suddivisione.
  2. Classificazione del testo nell'elaborazione del linguaggio naturale: Nello sviluppo di un modello per classificare le recensioni dei clienti come positive o negative (analisi del sentiment), viene utilizzato un set di convalida per scegliere l'architettura ottimale (ad esempio, LSTM vs. Transformer) o per ottimizzare gli iperparametri come i tassi di dropout. Il modello che ottiene il punteggio F1-score o l'accuratezza più elevati sul set di convalida verrebbe selezionato per il test finale. Risorse come Hugging Face Datasets spesso forniscono set di dati pre-divisi per questo scopo.

Cross-Validation

Quando la quantità di dati disponibili è limitata, viene spesso impiegata una tecnica chiamata Cross-Validation (in particolare K-Fold Cross-Validation). Qui, i dati di addestramento vengono suddivisi in 'K' sottoinsiemi (fold). Il modello viene addestrato K volte, ogni volta utilizzando K-1 fold per l'addestramento e il fold rimanente come set di validazione. Le prestazioni vengono quindi mediate su tutte le K esecuzioni. Ciò fornisce una stima più robusta delle prestazioni del modello e fa un uso migliore dei dati limitati, come spiegato in risorse come la documentazione di scikit-learn e la guida alla K-Fold Cross-Validation di Ultralytics.

In sintesi, i dati di validazione sono un elemento fondamentale per la creazione di modelli di IA affidabili e ad alte prestazioni con framework come PyTorch e TensorFlow. Consentono una messa a punto efficace degli iperparametri, la selezione del modello e la prevenzione dell'overfitting, garantendo che i modelli si generalizzino bene oltre i dati su cui sono stati addestrati. Piattaforme come Ultralytics HUB offrono strumenti integrati per la gestione efficace di questi set di dati.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti