Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Données de validation

Optimisez les modèles d'apprentissage automatique avec des données de validation pour éviter le surapprentissage, ajuster les hyperparamètres et garantir des performances robustes et réalistes.

Les données de validation constituent un point de contrôle essentiel dans le cycle de développement de l'apprentissage automatique. Elles servent de ensemble de données intermédiaire utilisé pour évaluer les performances d'un modèle pendant l'entraînement. Contrairement à l'ensemble de données principal utilisé pour enseigner l'algorithme, l'ensemble de validation fournit une estimation impartiale de la capacité du système à apprendre à généraliser à partir d' informations nouvelles et inconnues. En surveillant les métriques de ce sous-ensemble spécifique, les développeurs peuvent affiner la configuration du modèle et identifier des problèmes potentiels tels que le surajustement, où le système mémorise les exemples d'entraînement plutôt que de comprendre les modèles sous-jacents. Cette boucle de rétroaction est essentielle pour créer des solutions d'intelligence artificielle (IA) robustes qui fonctionnent de manière fiable dans le monde réel. .

Le rôle de la validation dans le réglage des hyperparamètres

La fonction principale des données de validation est de faciliter l'optimisation des hyperparamètres. Alors que les paramètres internes, tels que les poids du modèle, sont appris automatiquement au cours du processus d'entraînement, les hyperparamètres, notamment le taux d'apprentissage, la taille des lots et l'architecture du réseau, doivent être définis manuellement ou découverts par expérimentation.

Validation data allows engineers to compare different configurations effectively via model selection. For example, if a developer is training a YOLO26 model, they might test three different learning rates. The version that yields the highest accuracy on the validation set is typically selected. This process helps navigate the bias-variance tradeoff, ensuring the model is complex enough to capture data nuances but simple enough to remain generalizable.

Distinction entre les divisions de données

Afin de garantir la rigueur scientifique, un ensemble de données complet est généralement divisé en trois sous-ensembles distincts. Il est essentiel de comprendre l' objectif unique de chacun d'entre eux pour une gestion efficace des données.

  • Données d'entraînement: il s'agit de la plus grande partie de l'ensemble de données, utilisée directement pour ajuster le modèle. L'algorithme traite ces exemples pour ajuster ses paramètres internes via la rétropropagation.
  • Données de validation : ce sous-ensemble est utilisé pendant le processus d'apprentissage pour fournir une évaluation fréquente. Il est essentiel de noter que le modèle ne met jamais directement à jour ses poids sur la base de ces données ; il les utilise uniquement pour guider la sélection du modèle et les décisions d'arrêt précoce.
  • Données de test: ensemble de données entièrement conservé et utilisé uniquement une fois la configuration finale du modèle choisie. Il sert d'« examen final » afin de fournir une mesure réaliste des performances de déploiement du modèle.

Mise en œuvre pratique avec Ultralytics

Dans Ultralytics , la validation d'un modèle est un processus simplifié. Lorsqu'un utilisateur lance l'entraînement ou la validation, le framework utilise automatiquement les images spécifiées dans la configuration YAML du jeu de données. Cela permet de calculer des indicateurs de performance clés tels que la précision moyenne (mAP), qui aide les utilisateurs à évaluer la précision de leurs tâches de détection ou de segmentation d'objets.

L'exemple suivant montre comment valider un modèle YOLO26 pré-entraîné sur l'ensemble COCO8 à l'aide de Python:

from ultralytics import YOLO

# Load the YOLO26 model (recommended for state-of-the-art performance)
model = YOLO("yolo26n.pt")

# Validate the model using the 'val' mode
# The 'data' argument points to the dataset config containing the validation split
metrics = model.val(data="coco8.yaml")

# Print the Mean Average Precision at IoU 0.5-0.95
print(f"Validation mAP50-95: {metrics.box.map}")

Applications concrètes

Les données de validation sont indispensables dans divers secteurs où la précision et la fiabilité sont incontournables.

  • Agriculture intelligente : dans le domaine de l' IA appliquée à l'agriculture, les systèmes sont entraînés à detect les maladies detect ou à surveiller les stades de croissance. Un ensemble de validation contenant des images capturées dans diverses conditions météorologiques (ensoleillé, couvert, pluvieux) garantit que le modèle ne fonctionne pas uniquement par temps idéal et ensoleillé. En ajustant les stratégies d'augmentation des données en fonction des scores de validation, les agriculteurs obtiennent des informations cohérentes, quelle que soit la variabilité de l'environnement.
  • Diagnostic médical : lors du développement de solutions pour l' analyse d'images médicales, telles que l' identification de tumeurs dans les tomodensitogrammes, les données de validation permettent d'éviter que le modèle n'apprenne des biais spécifiques à l'équipement d'un hôpital donné. Une validation rigoureuse sur des données démographiques variées garantit que les outils de diagnostic répondent aux normes de sécurité requises par les organismes de réglementation tels que les directives de la FDA en matière de santé numérique.

Techniques avancées : Validation croisée

In scenarios where data is scarce, setting aside a dedicated 20% for validation might remove too much valuable training information. In such cases, practitioners often employ Cross-Validation, specifically K-Fold Cross-Validation. This technique involves partitioning the data into 'K' subsets and rotating which subset serves as the validation data. This ensures that every data point is used for both training and validation, providing a statistically more robust estimate of model performance as described in statistical learning theory.

Effective use of validation data is a cornerstone of professional Machine Learning Operations (MLOps). By leveraging tools like the Ultralytics Platform, teams can automate the management of these datasets, ensuring that models are rigorously tested and optimized before they ever reach production.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant