Glossaire

Surajustement

Apprenez à identifier, prévenir et traiter l'overfitting dans l'apprentissage automatique. Découvrez les techniques permettant d'améliorer la généralisation des modèles et les performances dans le monde réel.

Le surajustement dans l'apprentissage automatique se produit lorsqu'un modèle apprend trop bien les données d'apprentissage, capturant le bruit et les fluctuations aléatoires au lieu du modèle sous-jacent. Il en résulte d'excellentes performances sur l'ensemble des données d'apprentissage, mais une mauvaise généralisation à de nouvelles données inédites. Essentiellement, le modèle devient trop complexe et adapté spécifiquement aux exemples de formation, ce qui revient à mémoriser des réponses plutôt qu'à comprendre des concepts. Il s'agit d'un défi courant lors de la formation de modèles d'IA, en particulier avec des algorithmes complexes tels que les réseaux neuronaux utilisés dans Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'images.

Comprendre le surajustement

Le surajustement survient parce que les modèles ML visent à minimiser les erreurs sur les données d'apprentissage. Si un modèle possède une complexité excessive (par exemple, trop de paramètres ou de couches dans un modèle d'apprentissage profond ), il peut s'adapter même au bruit aléatoire présent dans l'ensemble d'apprentissage. Ce bruit ne représente pas de véritables modèles sous-jacents et il est peu probable qu'il soit présent dans de nouveaux ensembles de données. Imaginez qu'un costume soit parfaitement adapté aux mensurations exactes d'une personne un jour donné - il pourrait ne pas lui convenir si son poids fluctue légèrement ou si quelqu'un d'autre l'essaie. En ML, cette "adaptation parfaite" aux données d'entraînement se traduit par un manque de souplesse et des performances médiocres sur les données du monde réel, ce que l'on appelle souvent une mauvaise généralisation.

Le problème inverse est l'inadaptation, lorsqu'un modèle est trop simple pour capturer la structure sous-jacente des données. Un modèle sous-adapté donne de mauvais résultats à la fois sur les données d'apprentissage et sur les nouvelles données parce qu'il n'a pas suffisamment appris. L'objectif est de trouver un équilibre optimal, souvent discuté dans le contexte du compromis biais-variance, en créant un modèle qui se généralise bien à des données inédites. Une variance élevée est caractéristique d'un surajustement, tandis qu'un biais élevé est caractéristique d'un sous-ajustement. La compréhension de ce concept de compromis est cruciale pour le développement de modèles.

Exemples concrets de surajustement

  • Analyse d'images médicales : Prenons l'exemple d'un modèle formé pour l'analyse d'images médicales, comme la détection de tumeurs dans les IRM. Si les données d'entraînement proviennent principalement d'un seul modèle de scanner IRM, l'IA risque de s'adapter de manière excessive aux caractéristiques spécifiques de l'image (comme les modèles de bruit ou la résolution) de cette machine. Lorsqu'elle est confrontée à des images provenant d'un autre scanner ou à des images de moindre qualité, ses performances risquent de se dégrader considérablement car elle a appris des artefacts spécifiques à la machine plutôt que des caractéristiques générales de la tumeur. Le biais de l'ensemble des données peut exacerber ce problème.
  • Véhicules autonomes : Un modèle de détection d'objets utilisé dans un véhicule autonome peut être entraîné en grande partie sur des images capturées par temps clair et ensoleillé. Ce modèle pourrait atteindre une grande précision sur des données d'essai similaires, mais ne pas détecter de manière fiable les piétons, les cyclistes ou d'autres véhicules dans des conditions défavorables telles qu'une pluie battante, le brouillard ou la nuit. Il s'est surajouté aux indices visuels spécifiques de l'environnement d'entraînement (par exemple, ombres dures, lumière vive) au lieu d'apprendre les caractéristiques robustes et générales des objets dans des conditions différentes. La diversification des données d'entraînement, éventuellement à l'aide d'ensembles de données tels que COCO ou Argoverse, permet d'atténuer ce phénomène.

Identifier le surajustement

Le surajustement est généralement identifié en comparant les performances d'un modèle sur l'ensemble de données d'apprentissage et sur un ensemble de données de validation distinct.

  • Mesures de performance : Surveillez les mesures telles que l'exactitude, la précision, le rappel et le score F1. Si les mesures de formation continuent de s'améliorer alors que les mesures de validation plafonnent ou se dégradent, le modèle est probablement surajusté. La valeur de la fonction de perte diminue généralement de manière significative sur l'ensemble d'apprentissage, mais augmente ou stagne sur l'ensemble de validation. Vous pouvez explorer différentes mesures de performance YOLO pour l'évaluation.
  • Courbes d'apprentissage : La représentation graphique des performances du modèle (par exemple, la perte ou la précision) au fil des époques pour les ensembles d'apprentissage et de validation permet d'obtenir un aperçu visuel. Un écart croissant entre la courbe d'apprentissage (qui s'améliore) et la courbe de validation (qui stagne ou se dégrade) est un signe classique de surajustement. La visualisation des courbes d'apprentissage facilite le diagnostic.

Prévenir le surajustement

Plusieurs techniques permettent d'atténuer le surajustement et d'améliorer la généralisation des modèles :

  • Validation croisée: Les techniques telles que la validation croisée K-Fold utilisent différents sous-ensembles de données pour la formation et la validation, ce qui permet d'obtenir une estimation plus solide des performances du modèle sur des données inédites.
  • Augmentation des données: Augmentation artificielle de la taille et de la diversité de l'ensemble de données de formation en appliquant des transformations telles que la rotation, la mise à l'échelle, le recadrage et les changements de couleur. Les techniques d'augmentation des données d'Ultralytics YOLO sont intégrées pour améliorer la robustesse.
  • Régularisation: Ajout de pénalités à la fonction de perte en fonction de la complexité du modèle (par exemple, l'ampleur des poids). Les méthodes courantes comprennent la régularisation L1 et L2, qui découragent les poids importants. En savoir plus sur les méthodes de régularisation L1 et L2.
  • Arrêt précoce : Surveillance des performances du modèle sur l'ensemble de données de validation pendant la formation et arrêt du processus de formation lorsque les performances de validation commencent à se dégrader, afin d'éviter que le modèle n'apprenne du bruit dans les époques ultérieures. Voir l'explication de l'arrêt anticipé dans Keras.
  • Abandon: Mise à zéro aléatoire d'une fraction des activations de neurones au cours de la formation. Cela oblige le réseau à apprendre des caractéristiques plus robustes qui ne dépendent pas d'un seul neurone. Le concept d'exclusion est expliqué en détail ici.
  • Élagage du modèle: Suppression des paramètres ou des connexions les moins importants d'un réseau neuronal formé, afin d'en réduire la complexité sans incidence notable sur les performances. Neural Magic propose des outils d'élagage.
  • Simplifier l'architecture du modèle : L'utilisation d'un modèle moins complexe (par exemple, moins de couches ou de paramètres) peut éviter l'ajustement excessif, en particulier si l'ensemble de données est petit. Cela peut impliquer le choix d'une variante de modèle plus petite, comme la comparaison entre YOLOv8n et YOLOv8x.
  • Obtenez plus de données : L'augmentation de la quantité de données de formation de haute qualité est souvent l'un des moyens les plus efficaces d'améliorer la généralisation et de réduire le surajustement. Explorez divers ensembles de données Ultralytics.

En comprenant et en traitant l'overfitting, les développeurs peuvent construire des modèles d'IA plus fiables et plus efficaces. Des outils comme Ultralytics HUB peuvent aider au suivi des expériences et à l'évaluation des modèles, en aidant à la détection et à l'atténuation de l'overfitting pendant le cycle de vie du développement du modèle.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers