Glossaire

Données de formation

Découvre l'importance des données d'entraînement dans l'IA. Apprends comment les ensembles de données de qualité alimentent des modèles d'apprentissage automatique précis et robustes pour les tâches du monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Dans les domaines de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML), les données d'entraînement sont l'ensemble de données fondamental utilisé pour enseigner aux modèles comment effectuer des tâches spécifiques, telles que la classification ou la prédiction. Elles comprennent une vaste collection d'exemples, où chaque exemple associe généralement une entrée à une sortie ou une étiquette souhaitée correspondante. Grâce à des processus tels que l'apprentissage supervisé, le modèle analyse ces données, identifie les modèles et les relations sous-jacents et ajuste ses paramètres internes(poids du modèle) pour apprendre la correspondance entre les entrées et les sorties. Cet apprentissage permet au modèle de faire des prédictions ou de prendre des décisions précises lorsqu'il est confronté à de nouvelles données qui n'ont jamais été vues auparavant.

Qu'est-ce que les données de formation ?

Considère les données d'entraînement comme le manuel et les exercices d'entraînement d'un modèle d'IA. Il s'agit d'un ensemble d'informations soigneusement sélectionnées et formatées spécifiquement pour servir d'exemples pendant la phase d'apprentissage. Par exemple, dans les tâches de vision par ordinateur (VA) telles que la détection d'objets, les données d'entraînement sont constituées d'images ou de trames vidéo (les caractéristiques d'entrée) associées à des annotations (étiquettes) qui spécifient l'emplacement(boîtes de délimitation) et la classe des objets dans ces images. La création de ces étiquettes est une étape cruciale connue sous le nom d'étiquetage des données. Le modèle traite ces données de manière itérative, en comparant ses prédictions aux véritables étiquettes et en ajustant ses paramètres à l'aide de techniques telles que la rétropropagation et la descente de gradient afin de minimiser l'erreur ou la fonction de perte.

Importance des données de formation

Les performances et la fiabilité d'un modèle d'IA sont directement liées à la qualité, à la quantité et à la diversité de ses données d'entraînement. Des données représentatives et de haute qualité sont essentielles pour construire des modèles qui atteignent une précision élevée et qui se généralisent bien aux scénarios du monde réel(Generalization in ML). À l'inverse, des données d'entraînement insuffisantes, bruyantes ou biaisées peuvent entraîner des problèmes importants tels que des performances médiocres, un surajustement (lorsque le modèle fonctionne bien sur les données d'entraînement mais mal sur les nouvelles données) ou des résultats injustes et discriminatoires en raison de biais inhérents à l'ensemble de données. La prise en compte des biais est un aspect essentiel de l'éthique de l'IA. Par conséquent, la collecte et l'annotation méticuleuses des données ainsi que la préparation sont des étapes critiques dans le développement de systèmes d'IA performants.

Exemples de données de formation dans des applications réelles

Les données d'entraînement sont le carburant d'innombrables applications d'IA dans divers domaines. En voici deux exemples :

  1. Véhicules autonomes: Les voitures autonomes s'appuient fortement sur des données d'entraînement pour les systèmes de perception. Ces données comprennent de vastes quantités de séquences provenant de caméras, de LiDAR et de capteurs radar, méticuleusement étiquetées avec des objets tels que d'autres véhicules, des piétons, des cyclistes, des feux de circulation et des marquages de voies. Les modèles comme ceux utilisés dans la technologie de Waymo sont entraînés sur des ensembles de données tels qu'Argoverse pour apprendre à naviguer dans des environnements complexes en toute sécurité. Explore l'IA dans les solutions automobiles pour plus de détails.
  2. Analyse des sentiments: Dans le traitement du langage naturel (NLP), les modèles d'analyse des sentiments déterminent le ton émotionnel derrière un texte. Les données d'entraînement sont constituées d'échantillons de texte (par exemple, des avis de clients, des messages sur les médias sociaux) étiquetés avec des sentiments tels que " positif ", " négatif " ou " neutre "(Sentiment Analysis - Wikipedia). Cela permet aux entreprises d'évaluer automatiquement l'opinion publique ou la satisfaction des clients.

Qualité et préparation des données

Garantir la haute qualité des données de formation est primordial et implique plusieurs étapes clés. Le nettoyage des données (Wikipédia) permet d'éliminer les erreurs, les incohérences et les valeurs manquantes. Le prétraitement des données transforme les données brutes dans un format adapté au modèle. Des techniques comme l'augmentation des données élargissent artificiellement l'ensemble de données en créant des copies modifiées des données existantes (par exemple, en faisant pivoter ou en recadrant des images), ce qui permet d'améliorer la robustesse du modèle et de réduire le surajustement. La compréhension de tes données grâce à l'exploration, facilitée par des outils comme l'explorateur de jeux de donnéesUltralytics , est également cruciale avant de commencer le processus de formation.

Données de formation vs. données de validation et de test

Dans un projet de ML typique, les données sont réparties en trois ensembles distincts :

  • Données de formation : La plus grande partie, utilisée directement pour former le modèle en ajustant ses paramètres. Une formation efficace implique souvent un examen minutieux des conseils pour la formation du modèle.
  • Données de validation: Un sous-ensemble distinct utilisé périodiquement pendant la formation pour évaluer les performances du modèle sur des données à partir desquelles il n'a pas explicitement appris. Cela permet de régler les hyperparamètres (par exemple, le taux d'apprentissage, la taille du lot) par le biais de processus tels que l'optimisation des hyperparamètres (Wikipédia) et fournit un avertissement précoce contre le surajustement. Le mode de validation est utilisé pour cette évaluation.
  • Données de test: Un ensemble de données indépendant, non vu pendant la formation et la validation, utilisé seulement après que le modèle a été entièrement formé. Il fournit l'évaluation finale et impartiale de la capacité de généralisation du modèle et des performances attendues dans le monde réel. Il est essentiel de tester rigoureusement les modèles avant de les déployer.

Maintenir une séparation stricte entre ces ensembles de données est essentiel pour développer des modèles fiables et évaluer avec précision leurs capacités. Des plateformes comme Ultralytics HUB offrent des outils pour gérer efficacement ces ensembles de données tout au long du cycle de vie du développement du modèle. Les modèles de pointe comme Ultralytics YOLO sont souvent pré-entraînés sur de grands ensembles de données de référence tels que COCO ou ImageNet, qui servent de données d'entraînement étendues.

Tout lire