Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Données d'entraînement

Découvrez l'importance des données d'entraînement en IA. Apprenez comment des ensembles de données de qualité alimentent des modèles d'apprentissage automatique précis et robustes pour les tâches du monde réel.

Les données d'entraînement sont les données de base utilisées pour enseigner à un modèle d'apprentissage automatique (ML) comment traiter les données. modèle d'apprentissage machine (ML) à traiter l'information comment traiter les informations, reconnaître les modèles et faire des prédictions. Dans le contexte de l'apprentissage l'apprentissage supervisé, cet ensemble de données consiste en exemples d'entrée associés aux sorties souhaitées correspondantes, communément appelées étiquettes ou annotations. Au fur et à mesure que le modèle traite ces informations, il ajuste de manière itérative les poids de son internes du modèle afin de minimiser les erreurs et d'améliorer la précision. La qualité, la quantité et la diversité des données d'apprentissage sont souvent les facteurs les plus déterminants de la réussite d'un système. système, agissant comme le carburant qui alimente l'intelligence l 'intelligence artificielle (IA) moderne.

Caractéristiques des données de formation de haute qualité

L'adage "garbage in, garbage out" est fondamental pour la science des données. données à partir desquelles il apprend. Pour construire des systèmes de systèmes de vision artificielle (CV) robustes, les ensembles de données doivent répondre à des normes rigoureuses. répondre à des normes rigoureuses.

  • Pertinence et précision : Les données doivent représenter avec précision le problème du monde réel que le modèle va résoudre. Des étiquettes imprécises ou "bruyantes" peuvent perturber le processus d'apprentissage. Les outils d'étiquetage des d 'étiquetage des données permettent de s'assurer que les annotations les boîtes de délimitation ou les masques de segmentation, sont précises.
  • Diversité et volume : Un ensemble de données limité peut conduire à un surajustement, c'est-à-dire que le modèle mémorise les exemples d'entraînement mais ne parvient pas à fonctionner sur de nouvelles données. Des ensembles de données importants et diversifiés permettent au modèle de mieux se généraliser. Les développeurs utilisent souvent des techniques d'augmentation des données comme le retournement, la rotation ou l'ajustement de la luminosité des images, afin d'élargir artificiellement l'ensemble de données et d'introduire de la variété.
  • Atténuation des biais : Les ensembles de données doivent être soigneusement sélectionnés afin d'éviter les biais. les biais, qui peuvent entraîner des prédictions injustes ou faussées. injustes ou faussées. Il s'agit d'un élément clé du développement responsable de l'IA et de la garantie de résultats équitables. développement responsable de l'IA et de garantir des résultats équitables entre les différents groupes démographiques.

Différencier les données de formation, de validation et de test

Il est essentiel de distinguer les données d'entraînement des autres ensembles de données utilisés au cours du cycle de développement du modèle. pendant le cycle de développement du modèle. Chaque sous-ensemble a une fonction unique :

  • Données d'entraînement : Le plus grand sous-ensemble (généralement 70-80%), utilisé directement pour ajuster les paramètres du modèle.
  • Données de validation: Un sous-ensemble séparé sous-ensemble distinct utilisé pendant la formation pour fournir une évaluation impartiale de l'ajustement du modèle. Il aide les développeurs à régler les hyperparamètres, tels que le le taux d'apprentissage, et déclenche un arrêt prématuré si les performance plafonne.
  • Données de test: Un ensemble de données totalement inédites utilisé uniquement après la fin de la formation. Il fournit une mesure finale de la précision du modèle et de sa capacité à se généraliser dans le monde réel. modèle et de sa capacité à s'adapter à des scénarios du monde réel.

Applications concrètes

Les données relatives à la formation sont à la base d'innovations dans pratiquement tous les secteurs.

  1. Conduite autonome : Les voitures autonomes s'appuient sur des ensembles de données massives tels que comme nuScenes ou Waymo Open Dataset pour pour naviguer en toute sécurité. Ces ensembles de données contiennent des milliers d'heures de vidéo où chaque véhicule, piéton et panneau de signalisation est annoté. panneaux de signalisation est annoté. En s'entraînant sur ces diverses données, les véhicules autonomes apprennent à détecter les obstacles, véhicules autonomes apprennent à detect obstacles et à interpréter des scénarios de circulation complexes en temps réel.
  2. les diagnostics de santé : Dans l'analyse l'analyse d'images médicales, les radiologues conservent des données d'entraînement composées de radiographies, de tomodensitogrammes ou d'IRM étiquetés avec des conditions spécifiques. Par exemple, les modèles formés sur des ressources telles que The Cancer Imaging Archive (TCIA) peuvent aider les médecins en mettant en évidence les tumeurs potentielles avec une grande précision. Cette application de l l'IA dans les soins de santé accélère considérablement le diagnostic et améliore les résultats pour les patients.

Formation avec Ultralytics YOLO

Le ultralytics simplifie le processus d'utilisation des données de formation. Le cadre gère efficacement le chargement des données, l'augmentation et la boucle de formation. le chargement des données, l'augmentation et la boucle d'apprentissage. L'exemple suivant montre comment lancer une formation à l'aide de la bibliothèque YOLO11 avec un fichier de configuration standard de l'ensemble de données de données.

from ultralytics import YOLO

# Load the YOLO11 Nano model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
# The 'data' argument points to a YAML file defining the training data path
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Pour ceux qui cherchent à obtenir des données de formation de haute qualité, des plateformes telles que Google Dataset Search et Kaggle Datasets offrent de vastes référentiels couvrant des tâches allant de la segmentation d'images au traitement du langage naturel. La bonne gestion de ces données est la première étape vers l'élaboration de solutions d'IA performantes.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant