Données d'essai
Découvrez l'importance des données de test dans l'IA, leur rôle dans l'évaluation des performances des modèles, la détection du surajustement et la garantie de la fiabilité dans le monde réel.
Dans le domaine de l'apprentissage automatique, les données de test sont une partie distincte et indépendante d'un ensemble de données qui est utilisée pour l'évaluation finale d'un modèle après qu'il a été entièrement formé et mis au point. Cet ensemble de données agit comme un "examen final" pour le modèle, fournissant une évaluation impartiale de sa performance sur de nouvelles données inédites. Le principe de base est que le modèle ne doit jamais apprendre des données de test ni être influencé par elles au cours de son développement. Cette séparation stricte garantit que les mesures de performance calculées sur l'ensemble de test, telles que l'exactitude ou la précision moyenne (mAP), reflètent fidèlement la capacité du modèle à s'adapter aux scénarios du monde réel. Le test rigoureux d'un modèle est une étape critique avant son déploiement.
Le rôle des données de test dans le cycle de vie de la ML
Dans un projet typique d'apprentissage automatique, les données sont soigneusement partitionnées pour servir différents objectifs. Il est fondamental de comprendre la distinction entre ces partitions.
- Données d'apprentissage: Il s'agit du plus grand sous-ensemble de données, utilisé pour l'apprentissage du modèle. Le modèle apprend de manière itérative des modèles, des caractéristiques et des relations en ajustant ses poids internes sur la base des exemples de l'ensemble de formation. La création d'un modèle efficace repose sur des données de formation de haute qualité et sur le respect des meilleures pratiques telles que celles décrites dans ce guide de conseils pour la formation de modèles.
- Données de validation: Il s'agit d'un ensemble de données distinct utilisé au cours du processus de formation. Son objectif est de fournir un retour d'information sur les performances du modèle sur des données inédites, ce qui permet de régler les hyperparamètres (par exemple, d'ajuster le taux d'apprentissage) et d'éviter le surajustement. Il s'agit en quelque sorte d'un test d'entraînement qui permet de guider la stratégie d'apprentissage. L'évaluation est souvent réalisée à l'aide d'un mode de validation dédié.
- Données de test : Cet ensemble de données est totalement isolé jusqu'à ce que la formation et la validation soient terminées. Il n'est utilisé qu'une seule fois pour fournir un rapport final et impartial sur les performances du modèle. L'utilisation des données de test pour apporter d'autres ajustements au modèle invaliderait les résultats, une erreur parfois appelée "fuite de données" ou "apprentissage par le test". Cette évaluation finale est essentielle pour comprendre comment un modèle, comme le modèle YOLO d'Ultralytics, fonctionnera après son déploiement. Des outils comme Ultralytics HUB peuvent aider à gérer ces ensembles de données tout au long du cycle de vie du projet.
Bien qu'un ensemble de données de référence puisse servir d'ensemble de test, son rôle principal est de servir de norme publique pour comparer différents modèles, souvent utilisés dans des défis universitaires tels que le défi de reconnaissance visuelle à grande échelle ImageNet (ImageNet Large Scale Visual Recognition Challenge - ILSVRC). Vous pouvez en voir des exemples dans les pages de comparaison de modèles.
Applications dans le monde réel
- L'IA dans l'automobile : Un développeur crée un modèle de détection d'objets pour un véhicule autonome en utilisant des milliers d'heures d'images de conduite pour la formation et la validation. Avant de déployer ce modèle dans une flotte, il l'évalue par rapport à un ensemble de données de test. Cet ensemble de données comprend des scénarios difficiles et inédits tels que la conduite de nuit sous une pluie battante, la navigation dans une tempête de neige ou la détection de piétons partiellement masqués par d'autres objets. Les performances du modèle sur cet ensemble de tests, souvent à l'aide de données de référence comme nuScenes, déterminent s'il répond aux normes rigoureuses de sécurité et de fiabilité requises pour l'IA dans les applications automobiles.
- Analyse d'images médicales : Un modèle de vision artificielle (CV) est formé pour détecter les signes de pneumonie à partir d'images de radiographie thoracique provenant d'un hôpital. Pour s'assurer de son utilité clinique, le modèle doit être testé sur un ensemble d'images provenant d'un autre système hospitalier. Ces données de test incluraient des images capturées avec un équipement différent, provenant d'une population de patients diversifiée et interprétées par des radiologues différents. L'évaluation des performances du modèle sur cet ensemble de tests externes est essentielle pour obtenir l'approbation réglementaire, par exemple de la FDA, et confirmer son utilité pour l'IA dans les soins de santé. Ce processus permet de s'assurer que le modèle évite les biais liés à l'ensemble des données et qu'il fonctionne de manière fiable dans de nouveaux contextes cliniques.