Données de test
Découvrez l'importance des données de test en IA, leur rôle dans l'évaluation des performances du modèle, la détection du surapprentissage et la garantie de la fiabilité dans le monde réel.
En apprentissage automatique, les données de test sont une partie distincte et indépendante d'un ensemble de données qui est utilisée pour l'évaluation finale d'un modèle après qu'il a été entièrement entraîné et réglé. Cet ensemble de données sert d'« examen final » pour le modèle, fournissant une évaluation impartiale de ses performances sur des données nouvelles et non vues. Le principe de base est que le modèle ne doit jamais apprendre ou être influencé par les données de test pendant son développement. Cette séparation stricte garantit que les mesures de performance calculées sur l'ensemble de test, telles que la précision ou la précision moyenne (mAP), reflètent fidèlement la capacité du modèle à se généraliser à des scénarios du monde réel. Des tests de modèle rigoureux sont une étape essentielle avant le déploiement du modèle.
Le rôle des données de test dans le cycle de vie du ML
Dans un projet typique d'apprentissage automatique (ML), les données sont soigneusement partitionnées pour servir différents objectifs. Il est fondamental de comprendre la distinction entre ces partitions.
- Données d'entraînement : Il s'agit du plus grand sous-ensemble de données, utilisé pour entraîner le modèle. Le modèle apprend de manière itérative les motifs, les caractéristiques et les relations en ajustant ses poids internes en fonction des exemples de l'ensemble d'entraînement. La création d'un modèle efficace repose sur des données d'entraînement de haute qualité et sur le respect des meilleures pratiques, telles que celles présentées dans ce guide de conseils pour l'entraînement de modèles.
- Données de validation : Il s'agit d'un ensemble de données distinct utilisé pendant le processus d'entraînement. Son objectif est de fournir un retour d'information sur les performances du modèle sur des données non vues, ce qui permet de régler les hyperparamètres (par exemple, en ajustant le taux d'apprentissage) et d'éviter le surapprentissage. C'est comme un test pratique qui aide à orienter la stratégie d'apprentissage. L'évaluation est souvent effectuée à l'aide d'un mode de validation dédié.
- Données de test : Cet ensemble de données est conservé complètement isolé jusqu'à la fin de l'entraînement et de la validation. Il n'est utilisé qu'une seule fois pour fournir un rapport final et impartial sur les performances du modèle. L'utilisation des données de test pour effectuer d'autres ajustements sur le modèle invaliderait les résultats, une erreur parfois appelée « fuite de données » ou « enseignement pour le test ». Cette évaluation finale est essentielle pour comprendre comment un modèle, comme un modèle Ultralytics YOLO, fonctionnera après le déploiement. Des outils comme Ultralytics HUB peuvent aider à gérer ces ensembles de données tout au long du cycle de vie du projet.
Bien qu'un ensemble de données de référence puisse servir d'ensemble de test, son rôle principal est de servir de norme publique pour comparer différents modèles, souvent utilisé dans des défis académiques tels que le ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Vous pouvez en voir des exemples dans les pages de comparaison de modèles.
Applications concrètes
- L'IA dans l'automobile : Un développeur crée un modèle de détection d'objets pour un véhicule autonome en utilisant des milliers d'heures d'images de conduite pour l'entraînement et la validation. Avant de déployer ce modèle dans une flotte, il est évalué par rapport à un ensemble de données de test. Cet ensemble de test comprendrait des scénarios difficiles et inédits, tels que la conduite de nuit sous de fortes pluies, la navigation dans une tempête de neige ou la détection de piétons partiellement masqués par d'autres objets. Les performances du modèle sur cet ensemble de test, utilisant souvent des données provenant de benchmarks tels que nuScenes, déterminent s'il répond aux normes strictes de sécurité et de fiabilité requises pour les applications de l'IA dans l'automobile.
- Analyse d’images médicales : Un modèle de vision artificielle (VA) est entraîné pour détecter les signes de pneumonie à partir d’images radiographiques pulmonaires provenant d’un hôpital. Pour s’assurer qu’il est cliniquement utile, le modèle doit être testé sur un ensemble de données d’images provenant d’un autre système hospitalier. Ces données de test comprendraient des images capturées avec différents équipements, provenant d’une population de patients diversifiée et interprétées par différents radiologues. L’évaluation de la performance du modèle sur cet ensemble de tests externes est essentielle pour obtenir une approbation réglementaire, comme celle de la FDA, et pour confirmer son utilité pour l’IA dans le domaine de la santé. Ce processus permet de s’assurer que le modèle évite les biais d’ensemble de données et qu’il fonctionne de manière fiable dans de nouveaux contextes cliniques.