Régularisation
Empêchez le surajustement et améliorez la généralisation du modèle grâce à des techniques de régularisation telles que L1, L2, l'abandon et l'arrêt anticipé. En savoir plus !
La régularisation est un ensemble de techniques utilisées dans l'apprentissage automatique (ML) et conçues pour prévenir un problème courant connu sous le nom de surajustement. L'overfitting se produit lorsqu'un modèle apprend trop précisément les détails des données d'apprentissage, y compris le bruit et les fluctuations aléatoires. Cette focalisation excessive sur les données d'apprentissage entrave la capacité du modèle à obtenir de bons résultats sur de nouvelles données, ce que l'on appelle la généralisation. Les méthodes de régularisation fonctionnent en ajoutant une pénalité liée à la complexité du modèle, l'encourageant à apprendre des modèles plus simples qui ont plus de chances de s'appliquer de manière générale. Cela est essentiel pour développer des modèles d'IA robustes, en particulier dans des domaines tels que la vision artificielle (CV) et le traitement du langage naturel (NLP).
Importance dans l'apprentissage automatique
La régularisation est essentielle pour former des modèles ML fiables, en particulier des modèles complexes tels que les modèles d'apprentissage profond (DL) et les réseaux neuronaux (NN). Sans régularisation, ces modèles pourraient se contenter de mémoriser les exemples d'apprentissage au lieu d'apprendre les modèles sous-jacents. Il en résulte une grande précision sur l'ensemble d'apprentissage, mais des performances médiocres lorsqu'ils sont évalués sur des données de validation ou déployés dans des scénarios du monde réel. En incorporant un terme de pénalité dans la fonction de perte ou en modifiant le processus de formation, la régularisation permet de gérer l'ampleur des poids du modèle. Cela simplifie effectivement le modèle et améliore sa capacité de généralisation. Cet équilibre délicat entre une bonne adaptation aux données et le maintien de la simplicité du modèle est un aspect clé du compromis biais-variance. Pour des modèles tels que Ultralytics YOLO, l'application de techniques de régularisation contribue de manière significative à l'obtention de performances élevées dans des tâches exigeantes telles que la détection d'objets en temps réel.
Techniques de régularisation courantes
Plusieurs techniques de régularisation sont largement utilisées :
- Régularisation L1 (Lasso) : Ajoute une pénalité proportionnelle à la valeur absolue des poids du modèle. Cela favorise la rareté, ce qui signifie que certains poids peuvent devenir exactement nuls, ce qui permet d'effectuer une sélection efficace des caractéristiques. En savoir plus sur la régression Lasso.
- Régularisation L2 (Ridge) : Ajoute une pénalité proportionnelle au carré des poids du modèle. Cela tend à réduire les poids vers zéro, mais les rend rarement exactement nuls, ce qui permet d'éviter des problèmes tels que la multicolinéarité. En savoir plus sur la régression Ridge.
- Couche d'exclusion: Au cours de la formation, la sortie d'une fraction des neurones est mise à zéro de manière aléatoire à chaque étape de mise à jour. Cela empêche le réseau de devenir trop dépendant d'un seul neurone et l'oblige à apprendre des caractéristiques plus robustes. Pour en savoir plus, lisez l'article original sur la méthode Dropout. Voir les conseils sur l'apprentissage des modèles pour une application pratique.
- Arrêt précoce : Surveille les performances du modèle sur un ensemble de données de validation distinct pendant la formation et arrête le processus lorsque les performances sur cet ensemble cessent de s'améliorer ou commencent à se dégrader, empêchant ainsi le modèle de se surajuster aux données de formation. Il s'agit d'une pratique courante dans les flux de travail d'apprentissage profond.
- Augmentation des données: Augmente artificiellement la taille et la diversité de l'ensemble de données de formation en créant des copies modifiées des données existantes (par exemple, en faisant pivoter, en recadrant ou en modifiant les couleurs des images). Cela agit comme un régularisateur en exposant le modèle à un plus grand nombre de variations, ce qui l'aide à mieux se généraliser. Explorez les différentes techniques d'augmentation des données et parcourez les ensembles de données Ultralytics pour obtenir des exemples.
Applications dans le monde réel
Les techniques de régularisation sont appliquées dans de nombreux domaines de l'intelligence artificielle :
- Analyse d'images médicales : Dans l'analyse d'images médicales, comme l'entraînement de réseaux neuronaux convolutionnels (CNN) pour détecter les tumeurs dans les IRM(à l'aide d'ensembles de données tels que Brain Tumor), les ensembles de données sont souvent limités. Des techniques telles que la régularisation L2 et le Dropout permettent d'éviter que le modèle ne s'adapte trop aux scanners spécifiques des patients dans l'ensemble de formation, ce qui permet d'obtenir des diagnostics plus fiables pour les nouveaux patients. Cet aspect est crucial pour les applications de l'IA dans le domaine de la santé.
- Véhicules autonomes : Les systèmes de perception des véhicules autonomes s'appuient sur des modèles tels que YOLO11 pour détecter les piétons, les véhicules et les obstacles. La régularisation permet de s'assurer que ces modèles s'adaptent bien à des conditions de conduite réelles diverses et imprévisibles (différents éclairages, conditions météorologiques, apparence des objets), ce qui est essentiel pour la sécurité. Découvrez l'IA dans les solutions automobiles.
- Prévisions financières : La régularisation L1 peut être utilisée lors de l'élaboration de modèles visant à prédire les tendances du marché boursier ou à évaluer le risque de crédit. Elle permet de sélectionner les indicateurs économiques les plus influents en réduisant à zéro les poids des caractéristiques moins importantes, ce qui permet d'obtenir des modèles prédictifs plus simples, plus interprétables et potentiellement plus robustes utilisés dans l'IA en finance.
Différences par rapport aux concepts apparentés
Il est important de distinguer la régularisation d'autres concepts ML connexes :
- Algorithme d'optimisation: Les algorithmes d'optimisation tels que la descente de gradient, la descente de gradient stochastique (SGD) ou l'optimiseur d'Adam sont des procédures utilisées pour minimiser la fonction de perte et trouver l'ensemble optimal de paramètres du modèle pendant la formation. La régularisation, quant à elle, modifie l'objectif (la fonction de perte elle-même ou la procédure d'apprentissage) pour donner la priorité à la généralisation tout en minimisant l'erreur d'apprentissage. L'optimisation trouve une solution ; la régularisation permet de s'assurer qu'il s'agit d'une bonne solution pour des données inédites.
- Réglage des hyperparamètres: Il s'agit du processus de sélection des paramètres de configuration optimaux pour un modèle ou un algorithme de formation avant le début du processus de formation. Ces paramètres, appelés hyperparamètres, comprennent des éléments tels que le taux d'apprentissage, le nombre de couches d'un réseau neuronal ou la force de la pénalité de régularisation (par exemple, la valeur lambda dans L1/L2). La régularisation est une technique appliquée pendant la formation, tandis que le réglage des hyperparamètres optimise les paramètres régissant cette technique et d'autres. Des outils tels que la plateforme Ultralytics HUB offrent des possibilités de réglage automatisé des hyperparamètres.