Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Données de validation

Optimisez les modèles d'apprentissage automatique avec des données de validation pour éviter le surapprentissage, ajuster les hyperparamètres et garantir des performances robustes et réalistes.

Les données de validation constituent une étape intermédiaire essentielle dans le cycle de développement de l'apprentissage automatique. de données inédites au cours du processus d'apprentissage du modèle. Il s'agit d'un sous-ensemble distinct de l'ensemble de données utilisé pour fournir une évaluation impartiale de l'adéquation d'un modèle tout en ajustant sa configuration. évaluation impartiale de l'adéquation d'un modèle tout en ajustant sa configuration. En testant périodiquement le modèle par rapport aux données de données de validation, les développeurs peuvent évaluer dans quelle mesure le système apprend à à généraliser les nouvelles informations plutôt que de simplement mémoriser les exemples d'apprentissage. Cette boucle de rétroaction est essentielle pour identifier rapidement les problèmes et optimiser le modèle afin qu'il soit robuste et performant dans le monde réel. pour obtenir des performances robustes dans le monde réel.

Le rôle de la validation dans la mise au point des modèles

La fonction première des données de validation est de faciliter l 'ajustement des hyperparamètres. Contrairement aux paramètres internes tels que les poids du modèle, qui sont appris directement à partir du processus de formation, les hyperparamètres - comme le taux d'apprentissage ou d 'apprentissageou la taille du lot - doiventêtre définis manuellement ou optimisés par l'expérimentation. L'ensemble de validation permet aux ingénieurs de comparer différentes architectures et configurations de modèles afin de sélectionner la plus performante sans toucher à l'ensemble de test final. pour sélectionner le modèle le plus performant sans toucher à l'ensemble de test final.

En outre, le contrôle des performances sur les données de validation permet d'éviter l 'overfitting. Le surajustement se produit lorsqu'un modèle apprend le bruit et les détails spécifiques des données d'apprentissage au détriment de ses performances sur les nouvelles données. le bruit et les détails spécifiques des données d'apprentissage au détriment de ses performances sur les nouvelles données. Si l'erreur d'apprentissage diminue mais que l'erreur de validation augmente, cela indique que le modèle perd sa capacité de généralisation, ce qui signale la nécessité de recourir à des techniques d'intervention telles que l'arrêt prématuré. la nécessité de recourir à des techniques d'intervention telles que l'arrêt précoce.

Distinction entre les divisions de données

Pour garantir une évaluation fiable, un ensemble de données complet est généralement divisé en trois parties distinctes. Comprendre l'objectif l'objectif spécifique de chaque partie est essentiel pour une efficace des données.

  • Données de formation: Il s'agit du sous-ensemble le plus important, utilisé pour l'apprentissage du réseau neuronal. sous-ensemble, utilisé pour l'apprentissage du réseau neuronal. Le modèle itère sur ces données, en ajustant ses paramètres pour minimiser la fonction de perte. la fonction de perte.
  • Données de validation : Utilisées strictement pour l'évaluation pendant la formation. Elles guident la sélection du meilleur point de contrôle du modèle et aident à ajuster les hyperparamètres. point de contrôle du modèle et permettent d'ajuster les hyperparamètres. Il est important de noter que le modèle n'apprend jamais directement à partir de ces données ; il ne les utilise que pour l'évaluation. directement à partir de ces données ; il ne les utilise que pour l'évaluation.
  • Données d'essai: Un ensemble de données utilisé uniquement une fois que le modèle final a été choisi. Il fournit une mesure finale et impartiale de la précision et de la fiabilité avant le déploiement du modèle. avant le déploiement du modèle.

Mise en œuvre pratique avec Ultralytics

Dans l'écosystème Ultralytics , la validation est intégrée de manière transparente dans le flux de travail. Lors de la définition d'une configuration YAML les utilisateurs spécifient les chemins d'accès aux images d'entraînement et de validation. Le mode de validation d Ultralytics peut alors être invoqué pour calculer des métriques telles que des mesures telles que la précision moyenne (mAP) sur l'ensemble de sur l'ensemble de validation.

Voici comment valider un modèleYOLO11 pré-entraîné en utilisant Python:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Validate the model on the 'coco8.yaml' dataset
# The 'data' argument specifies the dataset configuration containing the validation split
metrics = model.val(data="coco8.yaml")

# Display the Mean Average Precision (mAP) at IoU 50-95
print(f"Validation mAP50-95: {metrics.box.map}")

Applications concrètes

Les données de validation permettent aux développeurs d'affiner les modèles pour des secteurs spécifiques où la précision est primordiale.

  • L'agriculture intelligente : Dans le domaine de l'agriculture, l'IA permet de former des modèles. l 'IA dans l'agriculture, des modèles sont formés pour detect maladies des cultures ou surveiller leur maturité. Un ensemble de validation contenant des images prises dans différentes conditions météorologiques (ensoleillé, couvert, pluvieux) garantit la robustesse du modèle face aux changements environnementaux. (ensoleillé, couvert, pluvieux) permet de s'assurer que le modèle est robuste face aux changements environnementaux. En ajustant stratégies d'augmentation des données basées sur de validation, les agriculteurs obtiennent des prédictions fiables quelles que soient les prévisions.
  • Diagnostics médicaux : Lors du développement de l l 'IA dans le domaine de la santé pour des tâches telles que l'analyse des tomodensitogrammes, il est essentiel d'éviter les biais. il est essentiel d'éviter les biais. Les données de validation permettent de s'assurer qu'un modèle formé sur les données d'un hôpital s'applique bien aux scanners de différents fabricants. Cette vérification rigoureuse permet d'éviter les les pièges du compromis biais-variance, garantissant ainsi la la sécurité des patients.

Techniques avancées : Validation croisée

Dans les scénarios où les données sont rares, un fractionnement statique de la validation risque d'éliminer trop de données de formation précieuses. Dans ces cas, les praticiens ont souvent recours à la la validation croisée, en particulier K-Fold Validation croisée. Cette technique consiste à diviser les données en "K" sous-ensembles et à faire tourner le sous-ensemble qui sert de données de validation. les données de validation. Cela garantit que chaque point de données est utilisé à la fois pour la formation et la validation, ce qui permet d'obtenir une estimation statistiquement plus solide de la performance du modèle. une estimation statistiquement plus robuste de la performance du modèle, comme indiqué dans la section scikit-learn cross-validation documentation.

L'utilisation correcte des données de validation est la pierre angulaire des opérations d'apprentissage automatique (MLOps). des opérations d'apprentissage automatique (MLOps). En séparant strictement les exemples de validation du processus de formation, les développeurs s'assurent que leurs modèles ne se contentent pas de mémoriser des faits, mais qu'ils apprennent véritablement à interpréter le monde visuel. mémorisent des faits, mais apprennent véritablement à interpréter le monde visuel.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant