Données d'entraînement
Découvrez l'importance des données d'entraînement en IA. Apprenez comment des ensembles de données de qualité alimentent des modèles d'apprentissage automatique précis et robustes pour les tâches du monde réel.
Les données d'entraînement sont l'ensemble de données de base utilisé pour enseigner à un modèle d'apprentissage automatique (ML) comment faire des prédictions ou prendre des décisions précises. Dans l'apprentissage supervisé, ces données consistent en des échantillons d'entrée associés à des sorties correctes correspondantes, souvent appelées étiquettes ou annotations. Le modèle apprend itérativement à partir de ces exemples, en ajustant ses poids de modèle internes pour minimiser la différence entre ses prédictions et les étiquettes réelles. La qualité, la quantité et la diversité des données d'entraînement sont les facteurs les plus critiques qui influencent les performances d'un modèle et sa capacité à se généraliser à de nouvelles données non vues.
L'importance de données d'entraînement de haute qualité
Le principe de « garbage in, garbage out » est particulièrement vrai pour l'entraînement des modèles ML. Des données de haute qualité sont essentielles pour construire des systèmes robustes et fiables. Les principales caractéristiques comprennent :
- Pertinence : Les données doivent refléter fidèlement le problème que le modèle est destiné à résoudre.
- Diversité : Il doit couvrir un large éventail de scénarios, de cas limites et de variations que le modèle rencontrera dans le monde réel afin d'éviter le surapprentissage.
- Étiquetage précis : Les annotations doivent être correctes et cohérentes. Le processus d'étiquetage des données est souvent la partie la plus chronophage d'un projet de vision par ordinateur.
- Volume suffisant : Une grande quantité de données est généralement nécessaire pour que le modèle apprenne des schémas significatifs. Des techniques telles que l'augmentation de données peuvent aider à étendre artificiellement l'ensemble de données.
- Faible biais : Les données doivent être équilibrées et représentatives pour éviter le biais de l'ensemble de données, qui peut entraîner un comportement injuste ou incorrect du modèle. La compréhension du biais algorithmique est un aspect clé du développement responsable de l'IA.
Des plateformes comme Ultralytics HUB fournissent des outils pour gérer les ensembles de données tout au long du cycle de vie du développement du modèle, tandis que les outils open source comme CVAT sont populaires pour les tâches d'annotation.
Exemples concrets
- Véhicules autonomes : Pour entraîner un modèle de détection d'objets pour les véhicules autonomes, les développeurs utilisent de grandes quantités de données d'entraînement provenant de caméras et de capteurs. Ces données sont constituées d'images et de vidéos où chaque image est méticuleusement étiquetée. Les piétons, les cyclistes, les autres voitures et les panneaux de signalisation sont entourés de boîtes englobantes. En s'entraînant sur des ensembles de données tels que Argoverse ou nuScenes, l'IA du véhicule apprend à percevoir et à naviguer dans son environnement en toute sécurité.
- Analyse d’images médicales : Dans le domaine de la santé, les données d’entraînement pour l’analyse d’images médicales peuvent comprendre des milliers d’IRM ou de tomodensitométries. Les radiologues annotent ces images pour mettre en évidence les tumeurs, les fractures ou d’autres pathologies. Un modèle ML, tel que celui construit avec Ultralytics YOLO, peut être entraîné sur un ensemble de données sur les tumeurs cérébrales pour apprendre à identifier ces anomalies, agissant comme un outil puissant pour aider les médecins à poser des diagnostics plus rapides et plus précis. Des ressources comme The Cancer Imaging Archive (TCIA) fournissent un accès public à ces données à des fins de recherche.
Données d'entraînement vs. Données de validation et de test
Dans un projet ML typique, les données sont divisées en trois ensembles distincts :
- Données d'entraînement : La plus grande partie, utilisée directement pour entraîner le modèle en ajustant ses paramètres. Un entraînement efficace implique souvent un examen attentif des conseils pour l'entraînement du modèle.
- Données de validation : Un sous-ensemble distinct utilisé périodiquement pendant l'entraînement pour évaluer les performances du modèle sur des données qu'il n'a pas explicitement apprises. Cela permet d'ajuster les hyperparamètres (par exemple, le taux d'apprentissage, la taille du lot) via des processus tels que l'optimisation des hyperparamètres (Wikipedia) et fournit un avertissement précoce contre le surapprentissage. Le mode de validation est utilisé pour cette évaluation.
- Données de test: Un ensemble de données indépendant, non observé pendant l'entraînement et la validation, utilisé uniquement après que le modèle est entièrement entraîné. Il fournit l'évaluation finale et impartiale de la capacité de généralisation du modèle et des performances attendues dans le monde réel. Des tests de modèle rigoureux sont essentiels avant le déploiement.
Le maintien d'une séparation stricte entre ces ensembles de données est essentiel pour développer des modèles fiables. Les modèles de pointe sont souvent pré-entraînés sur de grands ensembles de données de référence comme COCO ou ImageNet, qui servent de données d'entraînement complètes. Vous pouvez trouver d'autres ensembles de données sur des plateformes comme Google Dataset Search et Kaggle Datasets.