Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Données de validation

Découvrez comment les données de validation améliorent la généralisation des modèles. Apprenez à affiner Ultralytics , à éviter le surapprentissage et à optimiser les hyperparamètres pour obtenir mAP maximal.

Les données de validation constituent un point de contrôle essentiel dans le cycle de développement de l'apprentissage automatique. Elles servent de ensemble de données intermédiaire utilisé pour évaluer les performances d'un modèle pendant l'entraînement. Contrairement à l'ensemble de données principal utilisé pour enseigner l'algorithme, l'ensemble de validation fournit une estimation impartiale de la capacité du système à apprendre à généraliser à partir d' informations nouvelles et inconnues. En surveillant les métriques de ce sous-ensemble spécifique, les développeurs peuvent affiner la configuration du modèle et identifier des problèmes potentiels tels que le surajustement, où le système mémorise les exemples d'entraînement plutôt que de comprendre les modèles sous-jacents. Cette boucle de rétroaction est essentielle pour créer des solutions d'intelligence artificielle (IA) robustes qui fonctionnent de manière fiable dans le monde réel. .

Le rôle de la validation dans le réglage des hyperparamètres

La fonction principale des données de validation est de faciliter l'optimisation des hyperparamètres. Alors que les paramètres internes, tels que les poids du modèle, sont appris automatiquement au cours du processus d'entraînement, les hyperparamètres, notamment le taux d'apprentissage, la taille des lots et l'architecture du réseau, doivent être définis manuellement ou découverts par expérimentation.

Les données de validation permettent aux ingénieurs de comparer efficacement différentes configurations via la sélection de modèles. Par exemple, si un développeur forme un modèle YOLO26, il peut tester trois taux d'apprentissage différents. La version qui donne la plus grande précision sur l'ensemble de validation est généralement sélectionnée. Ce processus aide à naviguer entre le compromis biais-variance, en garantissant que le modèle est suffisamment complexe pour capturer les nuances des données, mais suffisamment simple pour rester généralisable.

Distinction entre les divisions de données

Afin de garantir la rigueur scientifique, un ensemble de données complet est généralement divisé en trois sous-ensembles distincts. Il est essentiel de comprendre l' objectif unique de chacun d'entre eux pour une gestion efficace des données.

  • Données d'entraînement: il s'agit de la plus grande partie de l'ensemble de données, utilisée directement pour ajuster le modèle. L'algorithme traite ces exemples pour ajuster ses paramètres internes via la rétropropagation.
  • Données de validation : ce sous-ensemble est utilisé pendant le processus d'apprentissage pour fournir une évaluation fréquente. Il est essentiel de noter que le modèle ne met jamais directement à jour ses poids sur la base de ces données ; il les utilise uniquement pour guider la sélection du modèle et les décisions d'arrêt précoce.
  • Données de test: ensemble de données entièrement conservé et utilisé uniquement une fois la configuration finale du modèle choisie. Il sert d'« examen final » afin de fournir une mesure réaliste des performances de déploiement du modèle.

Mise en œuvre pratique avec Ultralytics

Dans Ultralytics , la validation d'un modèle est un processus simplifié. Lorsqu'un utilisateur lance l'entraînement ou la validation, le framework utilise automatiquement les images spécifiées dans la configuration YAML du jeu de données. Cela permet de calculer des indicateurs de performance clés tels que la précision moyenne (mAP), qui aide les utilisateurs à évaluer la précision de leurs tâches de détection ou de segmentation d'objets.

L'exemple suivant montre comment valider un modèle YOLO26 pré-entraîné sur l'ensemble COCO8 à l'aide de Python:

from ultralytics import YOLO

# Load the YOLO26 model (recommended for state-of-the-art performance)
model = YOLO("yolo26n.pt")

# Validate the model using the 'val' mode
# The 'data' argument points to the dataset config containing the validation split
metrics = model.val(data="coco8.yaml")

# Print the Mean Average Precision at IoU 0.5-0.95
print(f"Validation mAP50-95: {metrics.box.map}")

Applications concrètes

Les données de validation sont indispensables dans divers secteurs où la précision et la fiabilité sont incontournables.

  • Agriculture intelligente : dans le domaine de l' IA appliquée à l'agriculture, les systèmes sont entraînés à detect les maladies detect ou à surveiller les stades de croissance. Un ensemble de validation contenant des images capturées dans diverses conditions météorologiques (ensoleillé, couvert, pluvieux) garantit que le modèle ne fonctionne pas uniquement par temps idéal et ensoleillé. En ajustant les stratégies d'augmentation des données en fonction des scores de validation, les agriculteurs obtiennent des informations cohérentes, quelle que soit la variabilité de l'environnement.
  • Diagnostic médical : lors du développement de solutions pour l' analyse d'images médicales, telles que l' identification de tumeurs dans les tomodensitogrammes, les données de validation permettent d'éviter que le modèle n'apprenne des biais spécifiques à l'équipement d'un hôpital donné. Une validation rigoureuse sur des données démographiques variées garantit que les outils de diagnostic répondent aux normes de sécurité requises par les organismes de réglementation tels que les directives de la FDA en matière de santé numérique.

Techniques avancées : Validation croisée

Dans les cas où les données sont rares, réserver 20 % des données à la validation peut supprimer trop d'informations précieuses pour l' apprentissage. Dans de tels cas, les praticiens ont souvent recours à la validation croisée, en particulier la validation croisée K-Fold. Cette technique consiste à partitionner les données en « K » sous-ensembles et à faire tourner le sous-ensemble qui sert de données de validation. Cela garantit que chaque point de données est utilisé à la fois pour l'entraînement et la validation, fournissant ainsi une estimation statistiquement plus robuste des performances du modèle, comme décrit dans la théorie de l'apprentissage statistique.

L'utilisation efficace des données de validation est la pierre angulaire des opérations professionnelles d'apprentissage automatique (MLOps). En exploitant des outils tels que la Ultralytics , les équipes peuvent automatiser la gestion de ces ensembles de données, garantissant ainsi que les modèles sont rigoureusement testés et optimisés avant même d' entrer en production.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant