Optimisez les modèles d'apprentissage automatique à l'aide de données de validation pour éviter l'ajustement excessif, régler les hyperparamètres et garantir des performances solides dans le monde réel.
Les données de validation sont un élément crucial du cycle de développement de l'apprentissage automatique. Il s'agit d'un sous-ensemble séparé de l'ensemble de données original, distinct des données d'apprentissage utilisées pour ajuster le modèle et des données de test utilisées pour l'évaluation finale. L'objectif principal des données de validation est de fournir une évaluation impartiale de l'ajustement d'un modèle sur l'ensemble de données d'apprentissage tout en réglant les hyperparamètres du modèle et en prenant des décisions sur l'architecture du modèle. Ce processus permet de sélectionner la meilleure configuration du modèle avant d'évaluer sa performance finale sur des données inédites.
Au cours du processus d'apprentissage du modèle, un modèle ML apprend des modèles à partir des données d'apprentissage. Toutefois, l'évaluation du modèle uniquement sur la base de ces données peut être trompeuse, car le modèle peut simplement mémoriser les exemples d'apprentissage, un phénomène connu sous le nom d'adaptation excessive (overfitting). Les données de validation servent de point de contrôle. En évaluant périodiquement les performances du modèle sur cet ensemble distinct au cours de la formation, les développeurs peuvent :
La compréhension de la distinction entre les ensembles de données d'entraînement, de validation et de test est fondamentale pour le développement de modèles robustes :
Une séparation adéquate, souvent gérée à l'aide d'outils comme Ultralytics HUB pour la gestion et la version des ensembles de données, garantit que les informations de l'ensemble de test ne "fuient" pas dans le processus de formation ou de sélection du modèle, ce qui conduirait à des estimations de performance trop optimistes.
Les données de validation sont indispensables pour le réglage des hyperparamètres. Les hyperparamètres sont des paramètres de configuration externes au modèle lui-même, définis avant le début du processus d'apprentissage. Il s'agit par exemple du taux d'apprentissage, du nombre de couches d'un réseau neuronal ou du type d'algorithme d'optimisation utilisé. Les développeurs entraînent plusieurs versions du modèle avec différentes combinaisons d'hyperparamètres, évaluent chacune d'entre elles sur l'ensemble de validation et sélectionnent la combinaison qui produit les meilleures performances. Cette recherche systématique peut être automatisée à l'aide de méthodes telles que la recherche par grille ou l'optimisation bayésienne, souvent facilitée par des plateformes intégrées aux outils MLOps.
Lorsque la quantité de données disponibles est limitée, une technique appelée validation croisée (en particulier la validation croisée K-Fold) est souvent employée. Dans ce cas, les données d'apprentissage sont divisées en "K" sous-ensembles (plis). Le modèle est entraîné K fois, en utilisant à chaque fois K-1 plis pour l'entraînement et le pli restant comme ensemble de validation. La moyenne des performances est ensuite calculée sur l'ensemble des K essais. Cela fournit une estimation plus robuste de la performance du modèle et permet une meilleure utilisation des données limitées, comme expliqué dans le guide Ultralytics K-Fold Cross-Validation.
En résumé, les données de validation sont la pierre angulaire de la construction de modèles d'intelligence artificielle (IA) fiables et performants. Elles permettent de régler efficacement les hyperparamètres, de sélectionner les modèles et de prévenir l'overfitting, en garantissant que les modèles se généralisent bien au-delà des données sur lesquelles ils ont été formés.