Données de test
Découvrez l'importance des données de test en IA, leur rôle dans l'évaluation des performances du modèle, la détection du surapprentissage et la garantie de la fiabilité dans le monde réel.
Dans le domaine de l'apprentissage automatique, les données de test sont une partie distincte et indépendante d'un ensemble de données utilisé pour l'évaluation finale d'un modèle après qu'il ait été entièrement entraîné et réglé.
l'évaluation finale d'un modèle après qu'il a été entièrement entraîné et réglé. Cet ensemble de données agit comme un "examen final" pour le modèle, en fournissant une évaluation impartiale de ses performances sur de nouvelles données non formées.
modèle, en fournissant une évaluation impartiale de ses performances sur de nouvelles données inédites. Le principe de base est que le modèle
ne doit jamais apprendre des données de test ni être influencé par elles au cours de son développement. Cette séparation stricte garantit que
les mesures de performance calculées sur l'ensemble de test, telles que la
la précision ou
précision moyenne (mAP), sont le reflet exact de la capacité du
de la capacité du modèle à se généraliser aux
à s'adapter aux scénarios du monde réel. Le test rigoureux d'un
rigoureux du modèle est une étape critique avant
le déploiement du modèle.
Le rôle des données de test dans le cycle de vie du ML
Dans un projet typique de Machine Learning (ML),
les données sont soigneusement partitionnées pour servir différents objectifs. Comprendre la distinction entre ces partitions est
fondamentale pour construire des modèles fiables.
-
Données de formation: Il s'agit du plus grand
sous-ensemble de données le plus important, utilisé pour enseigner le modèle. Le modèle apprend de manière itérative des modèles, des caractéristiques et des relations en
en ajustant les poids de son modèle interne en fonction des
sur la base des exemples de l'ensemble de formation. La création d'un modèle efficace repose sur des données de formation de haute qualité et sur le respect des meilleures pratiques, telles que celles décrites dans le présent document.
pratiques telles que celles décrites dans ce
guide de conseils pour l'apprentissage des modèles.
-
Données de validation: Il s'agit d'un
données distinctes utilisées au cours du processus de formation. Il a pour but de fournir un retour d'information sur les performances du modèle sur des données inédites, ce qui permet d'améliorer la qualité des données.
modèle sur des données inédites, ce qui permet d'ajuster les
l'ajustement de l'hyperparamètre (par exemple, l'ajustement du taux d'apprentissage) et
le taux d'apprentissage) et à prévenir
d 'apprentissage) et d'éviter le surajustement. Il s'agit en quelque sorte d'un test d'entraînement qui aide à guider la stratégie d'apprentissage.
guider la stratégie d'apprentissage. L'évaluation est souvent réalisée à l'aide d'un mode de
mode de validation dédié.
-
Données de test : Cet ensemble de données est totalement isolé jusqu'à ce que la formation et la validation soient terminées.
Il n'est utilisé qu'une seule fois pour fournir un rapport final et impartial sur les performances du modèle. L'utilisation des données de test pour
pour apporter d'autres ajustements au modèle invaliderait les résultats, une erreur parfois appelée "fuite de données" ou "enseignement".
de "fuite de données" ou d'"enseignement à l'essai ".
le test". Cette évaluation finale est essentielle pour comprendre comment un modèle, tel qu'un
Ultralytics YOLO11 se comportera après son déploiement.
Après la formation, vous pouvez utiliser le val sur votre fractionnement de test pour générer des mesures de performance finales.
from ultralytics import YOLO
# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")
# Evaluate the model's performance on the COCO8 test set.
# This command runs a final, unbiased evaluation on the 'test' split.
metrics = model.val(data="coco8.yaml", split="test")
print(metrics.box.map) # Print mAP score
Bien qu'un ensemble de données de référence puisse servir d'ensemble de test, son rôle principal est de servir de norme publique pour comparer différents modèles, souvent utilisés dans le cadre de défis académiques.
son rôle principal est de servir de norme publique pour comparer différents modèles, souvent utilisés dans le cadre de défis académiques
comme le
ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Vous
Vous pouvez en voir des exemples dans les pages de comparaison de modèles.
Applications concrètes
-
L'IA dans l'automobile : Un développeur crée un modèle de
modèle de détection d'objets pour un
véhicule autonome en utilisant des milliers d'heures
de conduite pour la formation et la validation. Avant de déployer ce modèle dans une flotte, il est évalué par rapport à un ensemble de données de test.
données de test. Cet ensemble de données comprendra des scénarios difficiles et inédits tels que la conduite de nuit sous une pluie battante, la traversée d'une tempête de neige, ou encore l'utilisation d'un système de détection d'objets.
pluie battante, la navigation dans une tempête de neige ou la détection de piétons partiellement masqués par d'autres objets. Les performances du modèle
du modèle sur cet ensemble de tests, souvent à l'aide de données provenant de tests de référence tels que
nuScenes, détermine s'il répond aux normes rigoureuses de sécurité et de fiabilité exigées par les constructeurs automobiles.
de sécurité et de fiabilité requises pour l'utilisation de l'IA dans les applications automobiles.
l 'IA dans les applications automobiles.
-
Analyse d'images médicales : A
modèle de vision par ordinateur est formé pour
detect signes de pneumonie à partir de radiographies du thorax provenant d'un hôpital. Pour s'assurer de son utilité clinique, le modèle doit être testé sur un ensemble d'images provenant d'un autre système hospitalier.
modèle doit être testé sur un ensemble d'images provenant d'un autre système hospitalier. Ces données de test incluraient des images
Ces données de test incluraient des images capturées avec un équipement différent, provenant d'une population de patients diversifiée et interprétées par des radiologues différents.
L'évaluation des performances du modèle sur cet ensemble de tests externes est cruciale pour obtenir l'approbation réglementaire, par exemple
de la
FDA, et pour confirmer son utilité pour l'IA dans les soins de santé.
l 'IA dans les soins de santé. Ce processus permet de s'assurer que le
modèle ne soit pas biaisé par l'ensemble des données et qu'il fonctionne de manière fiable dans de nouveaux contextes cliniques.
nouveaux contextes cliniques. Vous pouvez trouver des ensembles de données publiques d'imagerie médicale dans des ressources telles que
The Cancer Imaging Archive (TCIA).
Meilleures pratiques pour la gestion des données de test
Pour garantir l'intégrité de votre évaluation, tenez compte des meilleures pratiques suivantes :
-
Échantillonnage aléatoire : Lors de la création de vos divisions de données, veillez à ce que l'ensemble de test soit un échantillon représentatif de l'ensemble du problème.
représentatif de l'ensemble du problème. Des outils tels que
train_test_split de scikit-learn
de scikit-learn peuvent aider à automatiser ce partitionnement aléatoire.
-
Prévenir les fuites de données : Veillez à ce qu'il n'y ait pas de chevauchement entre les ensembles de formation et de test. Même une fuite subtile,
comme la présence d'images du même clip vidéo dans les deux ensembles, peut gonfler artificiellement les scores de performance.
-
Distribution représentative : Pour des tâches telles que la
la classification, vérifiez que la distribution des classes dans l'ensemble
l'ensemble de test reflète la distribution réelle que vous vous attendez à rencontrer.
-
Mesures d'évaluation : Choisissez des mesures qui correspondent aux objectifs de votre entreprise. Par exemple, dans une application
de sécurité, un taux de rappel élevé peut être plus important que la précision pour s'assurer qu'aucune menace n'est ignorée.
précision pour s'assurer qu'aucune menace n'est manquée.
En respectant strictement ces principes, vous pouvez utiliser en toute confiance les données de test pour certifier que vos modèles Ultralytics sont prêts pour les environnements de production.
Ultralytics sont prêts pour les environnements de production.