Données de formation
Découvrez l'importance des données d'entraînement dans l'IA. Apprenez comment des ensembles de données de qualité permettent d'obtenir des modèles d'apprentissage automatique précis et robustes pour des tâches réelles.
Les données de formation sont l'ensemble de données de base utilisé pour enseigner à un modèle d'apprentissage automatique comment faire des prédictions ou prendre des décisions précises. Dans l'apprentissage supervisé, ces données consistent en des échantillons d'entrée associés à des sorties correctes correspondantes, souvent appelées étiquettes ou annotations. Le modèle apprend de manière itérative à partir de ces exemples, en ajustant les poids de son modèle interne afin de minimiser la différence entre ses prédictions et les étiquettes réelles. La qualité, la quantité et la diversité des données d'apprentissage sont les facteurs les plus importants qui influencent les performances d'un modèle et sa capacité à s'adapter à de nouvelles données.
L'importance de données de formation de haute qualité
Le principe "garbage in, garbage out" est particulièrement vrai pour la formation des modèles ML. Des données de haute qualité sont essentielles pour construire des systèmes robustes et fiables. Les principales caractéristiques sont les suivantes
- Pertinence : Les données doivent refléter avec précision le problème que le modèle est censé résoudre.
- Diversité : Il doit couvrir un large éventail de scénarios, de cas limites et de variations que le modèle rencontrera dans le monde réel afin d'éviter un surajustement.
- Étiquetage précis : Les annotations doivent être correctes et cohérentes. Le processus d'étiquetage des données est souvent la partie la plus longue d'un projet de vision par ordinateur.
- Volume suffisant : Une grande quantité de données est généralement nécessaire pour que le modèle puisse apprendre des modèles significatifs. Des techniques telles que l'augmentation des données peuvent contribuer à élargir artificiellement l'ensemble de données.
- Faible partialité : les données doivent être équilibrées et représentatives afin d'éviter toute partialité de l'ensemble des données, qui peut entraîner un comportement injuste ou incorrect du modèle. La compréhension des biais algorithmiques est un aspect essentiel du développement responsable de l'IA.
Des plateformes comme Ultralytics HUB fournissent des outils pour gérer les ensembles de données tout au long du cycle de développement du modèle, tandis que des outils open-source comme CVAT sont populaires pour les tâches d'annotation.
Exemples concrets
- Véhicules autonomes : Pour former un modèle de détection d'objets pour les véhicules autonomes, les développeurs utilisent de grandes quantités de données de formation provenant de caméras et de capteurs. Ces données consistent en des images et des vidéos dont chaque trame est méticuleusement étiquetée. Les piétons, les cyclistes, les autres voitures et les panneaux de signalisation sont enfermés dans des boîtes de délimitation. En s'entraînant sur des ensembles de données comme Argoverse ou nuScenes, l'IA du véhicule apprend à percevoir et à naviguer dans son environnement en toute sécurité.
- Analyse d'images médicales : Dans le domaine de la santé, les données d'entraînement pour l'analyse d'images médicales peuvent consister en des milliers d'IRM ou de tomodensitogrammes. Les radiologues annotent ces images pour mettre en évidence les tumeurs, les fractures ou d'autres pathologies. Un modèle de ML, tel que celui construit avec Ultralytics YOLO, peut être entraîné sur un ensemble de données de tumeurs cérébrales pour apprendre à identifier ces anomalies, agissant comme un outil puissant pour aider les médecins à faire des diagnostics plus rapides et plus précis. Des ressources telles que The Cancer Imaging Archive (TCIA) offrent un accès public à ces données pour la recherche.
Données de formation vs. données de validation et de test
Dans un projet de ML classique, les données sont réparties en trois ensembles distincts :
- Données de formation : La partie la plus importante, utilisée directement pour former le modèle en ajustant ses paramètres. Une formation efficace implique souvent un examen minutieux des conseils pour la formation du modèle.
- Données de validation: Un sous-ensemble distinct utilisé périodiquement pendant la formation pour évaluer les performances du modèle sur des données à partir desquelles il n'a pas explicitement appris. Cela permet d'ajuster les hyperparamètres (par exemple, le taux d'apprentissage, la taille du lot) par le biais de processus tels que l'optimisation des hyperparamètres (Wikipedia) et fournit un avertissement précoce contre le surajustement. Le mode de validation est utilisé pour cette évaluation.
- Données d'essai: Un ensemble de données indépendant, qui n'a pas été vu pendant la formation et la validation et qui n'est utilisé qu'une fois que le modèle a été entièrement formé. Il fournit une évaluation finale et impartiale de la capacité de généralisation du modèle et des performances attendues dans le monde réel. Il est essentiel de tester rigoureusement les modèles avant de les déployer.
Il est essentiel de maintenir une séparation stricte entre ces ensembles de données pour développer des modèles fiables. Les modèles de pointe sont souvent pré-entraînés sur de grands ensembles de données de référence tels que COCO ou ImageNet, qui servent de données d'entraînement étendues. Vous pouvez trouver d'autres ensembles de données sur des plateformes telles que Google Dataset Search et Kaggle Datasets.