Données d'entraînement
Découvrez l'importance des données d'entraînement en IA. Apprenez comment des ensembles de données de qualité alimentent des modèles d'apprentissage automatique précis et robustes pour les tâches du monde réel.
Les données d'entraînement sont les données de base utilisées pour enseigner à un modèle d'apprentissage automatique (ML) comment traiter les données.
modèle d'apprentissage machine (ML) à traiter l'information
comment traiter les informations, reconnaître les modèles et faire des prédictions. Dans le contexte de l'apprentissage
l'apprentissage supervisé, cet ensemble de données consiste en
exemples d'entrée associés aux sorties souhaitées correspondantes, communément appelées étiquettes ou annotations. Au fur et à mesure que le modèle
traite ces informations, il ajuste de manière itérative les poids de son
internes du modèle afin de minimiser les erreurs et d'améliorer la précision.
La qualité, la quantité et la diversité des données d'apprentissage sont souvent les facteurs les plus déterminants de la réussite d'un système.
système, agissant comme le carburant qui alimente l'intelligence
l 'intelligence artificielle (IA) moderne.
Caractéristiques des données de formation de haute qualité
L'adage "garbage in, garbage out" est fondamental pour la science des données.
données à partir desquelles il apprend. Pour construire des systèmes de
systèmes de vision artificielle (CV) robustes, les ensembles de données doivent répondre à des normes rigoureuses.
répondre à des normes rigoureuses.
-
Pertinence et précision : Les données doivent représenter avec précision le problème du monde réel que le modèle va
résoudre. Des étiquettes imprécises ou "bruyantes" peuvent perturber le processus d'apprentissage. Les outils d'étiquetage des
d 'étiquetage des données permettent de s'assurer que les annotations
les boîtes de délimitation ou les masques de segmentation, sont précises.
-
Diversité et volume : Un ensemble de données limité peut conduire à
un surajustement, c'est-à-dire que le modèle mémorise les exemples
d'entraînement mais ne parvient pas à fonctionner sur de nouvelles données. Des ensembles de données importants et diversifiés permettent au modèle de mieux se généraliser. Les développeurs
utilisent souvent des techniques d'augmentation des données
comme le retournement, la rotation ou l'ajustement de la luminosité des images, afin d'élargir artificiellement l'ensemble de données et d'introduire de la variété.
-
Atténuation des biais : Les ensembles de données doivent être soigneusement sélectionnés afin d'éviter les biais.
les biais, qui peuvent entraîner des prédictions injustes ou faussées.
injustes ou faussées. Il s'agit d'un élément clé du développement responsable de l'IA et de la garantie de résultats équitables.
développement responsable de l'IA et de garantir des résultats équitables
entre les différents groupes démographiques.
Différencier les données de formation, de validation et de test
Il est essentiel de distinguer les données d'entraînement des autres ensembles de données utilisés au cours du cycle de développement du modèle.
pendant le cycle de développement du modèle. Chaque sous-ensemble a une fonction unique :
-
Données d'entraînement : Le plus grand sous-ensemble (généralement 70-80%), utilisé directement pour ajuster les paramètres du modèle.
-
Données de validation: Un sous-ensemble séparé
sous-ensemble distinct utilisé pendant la formation pour fournir une évaluation impartiale de l'ajustement du modèle. Il aide les développeurs à régler les
hyperparamètres, tels que le
le taux d'apprentissage, et déclenche un arrêt prématuré si les
performance plafonne.
-
Données de test: Un ensemble de données totalement inédites
utilisé uniquement après la fin de la formation. Il fournit une mesure finale de la précision du modèle et de sa capacité à se généraliser dans le monde réel.
modèle et de sa capacité à s'adapter à des scénarios
du monde réel.
Applications concrètes
Les données relatives à la formation sont à la base d'innovations dans pratiquement tous les secteurs.
-
Conduite autonome : Les voitures autonomes s'appuient sur des ensembles de données massives tels que
comme nuScenes ou Waymo Open Dataset pour
pour naviguer en toute sécurité. Ces ensembles de données contiennent des milliers d'heures de vidéo où chaque véhicule, piéton et panneau de signalisation est annoté.
panneaux de signalisation est annoté. En s'entraînant sur ces diverses données, les véhicules autonomes apprennent à détecter les obstacles,
véhicules autonomes apprennent à detect obstacles
et à interpréter des scénarios de circulation complexes en temps réel.
-
les diagnostics de santé : Dans l'analyse
l'analyse d'images médicales, les radiologues
conservent des données d'entraînement composées de radiographies, de tomodensitogrammes ou d'IRM étiquetés avec des conditions spécifiques. Par exemple, les modèles
formés sur des ressources telles que The Cancer Imaging Archive (TCIA) peuvent
aider les médecins en mettant en évidence les tumeurs potentielles avec une grande précision. Cette application de l
l'IA dans les soins de santé accélère considérablement
le diagnostic et améliore les résultats pour les patients.
Formation avec Ultralytics YOLO
Le ultralytics simplifie le processus d'utilisation des données de formation. Le cadre gère efficacement le chargement des données, l'augmentation et la boucle de formation.
le chargement des données, l'augmentation et la boucle d'apprentissage. L'exemple suivant montre comment lancer une formation
à l'aide de la bibliothèque YOLO11 avec un fichier de configuration standard de l'ensemble de données
de données.
from ultralytics import YOLO
# Load the YOLO11 Nano model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
# The 'data' argument points to a YAML file defining the training data path
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
Pour ceux qui cherchent à obtenir des données de formation de haute qualité, des plateformes telles que
Google Dataset Search et
Kaggle Datasets offrent de vastes référentiels couvrant des tâches allant de la
segmentation d'images au traitement du langage
naturel. La bonne gestion de ces données est la première étape vers l'élaboration de solutions d'IA performantes.