Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Régularisation

Empêchez le surapprentissage et améliorez la généralisation du modèle grâce à des techniques de régularisation telles que L1, L2, le dropout et l'arrêt précoce. Apprenez-en davantage!

La régularisation est un ensemble de techniques utilisées dans l'apprentissage automatique (AA) pour prévenir un problème courant connu sous le nom de surapprentissage. Lorsqu'un modèle effectue un surapprentissage, il apprend trop bien les données d'entraînement, y compris son bruit et ses fluctuations aléatoires, ce qui a un impact négatif sur sa capacité à généraliser et à faire des prédictions précises sur de nouvelles données non vues. La régularisation fonctionne en ajoutant une pénalité pour la complexité du modèle à la fonction de perte, ce qui décourage le modèle d'apprendre des schémas trop complexes. Cela permet de créer un modèle plus simple et plus généralisable qui fonctionne mieux à la fois sur les données d'entraînement et les données de validation.

Techniques courantes de régularisation

Il existe plusieurs techniques de régularisation largement utilisées qui aident à améliorer les performances et la robustesse du modèle :

  • Régularisation L1 et L2: Ce sont les formes les plus courantes de régularisation. Elles ajoutent une pénalité à la fonction de perte en fonction de la taille des poids du modèle. La régularisation L1 (Lasso) tend à réduire les poids des caractéristiques les moins importantes à zéro, effectuant ainsi une sélection de caractéristiques. La régularisation L2 (Ridge ou Weight Decay) force les poids à être petits mais rarement nuls. Une analyse plus approfondie des différences mathématiques peut être trouvée dans des ressources telles que les notes de cours CS229 de Stanford.
  • Couche de Dropout : Cette technique est spécifique aux réseaux neuronaux. Pendant l'entraînement, elle met aléatoirement à zéro une fraction des activations des neurones à chaque étape de mise à jour. Cela empêche les neurones de trop s'adapter ensemble et force le réseau à apprendre des caractéristiques plus robustes. Le concept a été introduit dans un article de recherche très influent.
  • Augmentation de données : En augmentant artificiellement la taille et la diversité des données d'entraînement, l'augmentation de données aide le modèle à devenir plus invariant aux changements mineurs. Les techniques courantes comprennent la rotation, le recadrage, la mise à l'échelle et le décalage des couleurs dans les images. Ultralytics offre des méthodes d'augmentation de données YOLO intégrées pour améliorer la robustesse du modèle.
  • Arrêt précoce : Il s'agit d'une méthode pratique où les performances du modèle sur un ensemble de validation sont surveillées pendant l'entraînement. Le processus d'entraînement est interrompu lorsque les performances de validation cessent de s'améliorer, empêchant ainsi le modèle de commencer à sur-apprendre lors des époques ultérieures. Un guide pratique sur l'implémentation de l'arrêt précoce est disponible dans la documentation de PyTorch.

Applications concrètes

La régularisation est essentielle au développement de modèles d'apprentissage profond (AP) efficaces dans divers domaines.

  1. Vision par ordinateur : Dans les modèles de détection d'objets comme Ultralytics YOLO, la régularisation est cruciale pour la généralisation des ensembles de données comme COCO aux applications du monde réel. Par exemple, dans l'IA pour les solutions automobiles, la régularisation L2 et le dropout aident un détecteur de panneaux de signalisation à fonctionner de manière fiable dans des conditions d'éclairage et météorologiques variées, l'empêchant de mémoriser les exemples spécifiques vus pendant l'entraînement.
  2. Traitement du langage naturel (NLP) : Les grands modèles de langage (LLM) sont sujets au surapprentissage en raison de leur nombre massif de paramètres. Dans des applications telles que la traduction automatique, le dropout est utilisé dans les architectures de Transformer pour garantir que le modèle apprend les règles grammaticales et les relations sémantiques plutôt que de simplement mémoriser des paires de phrases spécifiques à partir de ses données d'entraînement.

Régularisation vs. Autres concepts

Il est important de différencier la régularisation des autres concepts associés dans le domaine du ML :

  • Régularisation vs. Normalisation : La normalisation est une technique de prétraitement des données qui met à l'échelle les caractéristiques d'entrée dans une plage standard (par exemple, de 0 à 1). Elle garantit qu'aucune caractéristique unique ne domine le processus d'apprentissage en raison de son échelle. La régularisation, en revanche, est une technique qui contraint la complexité du modèle pendant l'entraînement pour éviter le surapprentissage. Bien que les deux améliorent les performances du modèle, la normalisation se concentre sur les données, tandis que la régularisation se concentre sur le modèle lui-même. La normalisation par lots est une technique de normalisation par couche qui fournit également un léger effet de régularisation.
  • Régularisation vs. Réglage des hyperparamètres : Les techniques de régularisation ont leurs propres hyperparamètres, tels que la force de régularisation (lambda) dans L1/L2 ou le taux de dropout. Le réglage des hyperparamètres est le processus de recherche des valeurs optimales pour ces paramètres, souvent automatisé avec des outils comme la classe Ultralytics Tuner. En bref, vous utilisez le réglage des hyperparamètres pour trouver la meilleure façon d'appliquer la régularisation. Des plateformes comme Ultralytics HUB peuvent aider à gérer les expériences nécessaires à ce processus.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers