Régularisation
Empêchez le surapprentissage et améliorez la généralisation du modèle grâce à des techniques de régularisation telles que L1, L2, le dropout et l'arrêt précoce. Apprenez-en davantage!
La régularisation est un ensemble de stratégies cruciales
l'apprentissage machine (ML) conçu pour améliorer la capacité d'un
la capacité d'un modèle à se généraliser à de nouvelles données inédites. Son objectif principal est d'empêcher
l'overfitting, un phénomène courant où un modèle apprend le bruit et les détails spécifiques des données.
le bruit et les détails spécifiques des données
données d'apprentissage au détriment de sa performance sur des
données valides. En introduisant des informations ou des contraintes supplémentaires - souvent sous la forme d'un terme de pénalité ajouté à la fonction de perte - la régularisation décourage le modèle de s'adapter aux données d'apprentissage.
fonction de perte, la régularisationdécourage le modèle de devenir excessivement complexe.
de devenir excessivement complexe. Il en résulte un système plus robuste qui maintient une précision élevée à la fois sur les données de formation et sur les données d'apprentissage.
précision sur les données d'apprentissage et de
données de validation.
Techniques courantes de régularisation
Il existe plusieurs méthodes établies pour appliquer la régularisation, chacune ciblant des aspects différents de la complexité du modèle et de la dynamique d'apprentissage.
et la dynamique de l'apprentissage :
-
Régularisation L1 et L2: Ce sont les formes les plus traditionnelles. La régularisation L1 (Lasso) ajoute une pénalité égale à la valeur absolue des coefficients.
coefficients, ce qui peut ramener certains poids à zéro, réalisant ainsi une sélection efficace des caractéristiques. Régularisation L2
(Ridge), largement utilisée dans l'apprentissage profond (DL), ajoute une pénalité égale au carré des coefficients.
une pénalité égale au carré de la magnitude des coefficients, ce qui favorise des poids de modèle plus petits et plus diffus.
les poids du modèle.
-
Couche d'abandon: Spécifiquement conçue pour les
réseaux neuronaux (NN), le dropout désactive aléatoirement
désactive aléatoirement une fraction des neurones à chaque étape de la formation. Cela oblige le réseau à apprendre des représentations redondantes et empêche la dépendance à l'égard de voies neuronales spécifiques.
redondantes et empêche la dépendance à des voies neuronales spécifiques, un concept détaillé dans l'article de recherche original de dropout.
dans l'article de recherche original sur le dropout.
-
Augmentation des données: Au lieu de modifier l'architecture du modèle, cette technique élargit l'ensemble de formation en créant des versions modifiées d'images ou de points de données existants.
versions modifiées d'images ou de points de données existants. Les transformations telles que la rotation, la mise à l'échelle et le retournement aident le modèle à devenir invariant à ces changements.
à devenir invariant à ces changements. Vous pouvez explorer les techniques d'augmentation des données de
les techniques d'augmentation des donnéesYOLO
voir comment elles sont appliquées dans la pratique.
-
Arrêt précoce: Cette approche pratique consiste à contrôler les performances du modèle sur un ensemble de validation pendant la formation. Si la perte de
de validation cesse de s'améliorer ou commence à augmenter, le processus de
le processus de formation est immédiatement interrompu. Cela empêche le modèle de continuer à apprendre du bruit dans les étapes ultérieures de la formation.
modèle de continuer à apprendre du bruit dans les phases ultérieures de la formation.
-
Lissage des étiquettes: Cette technique ajuste les étiquettes cibles au cours de la formation afin que le modèle ne soit pas contraint de prédire avec une confiance de 100 % (par exemple, une probabilité de 1,0).
(par exemple, une probabilité de 1,0). En adoucissant les cibles (par exemple, à 0,9), le lissage des étiquettes empêche le réseau de devenir trop sûr de lui, ce qui est bénéfique pour les tâches d'apprentissage.
réseau de devenir trop confiant, ce qui est bénéfique pour des tâches telles que la
la classification d'images.
Implémentation de la régularisation en Python
Des bibliothèques modernes comme Ultralytics permettent d'appliquer ces techniques en toute simplicité grâce à des arguments de formation. L'exemple
exemple suivant montre comment former un YOLO11 modèle
avec régularisation L2 (contrôlée par weight_decay) et les abandons afin de garantir un modèle robuste.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model with specific regularization parameters
# 'weight_decay' applies L2 regularization
# 'dropout' applies a dropout layer with a 10% probability
results = model.train(data="coco8.yaml", epochs=50, weight_decay=0.0005, dropout=0.1)
Applications concrètes
La régularisation est indispensable pour déployer des systèmes d'IA fiables dans divers secteurs.
-
Conduite autonome: En
l 'IA pour les solutions automobiles, les modèles de vision
doivent detect piétons et les panneaux de signalisation dans diverses conditions météorologiques. Sans régularisation, un modèle
pourrait mémoriser des conditions d'éclairage spécifiques à partir de l'ensemble d'apprentissage et échouer dans le monde réel. Des techniques telles que
comme la décomposition du poids garantissent que le système de détection se généralise bien à la pluie, au brouillard ou à l'éblouissement.
à la pluie, au brouillard ou à l'éblouissement.
-
Imagerie médicale: Lors de l'analyse d'images
l 'analyse d'images médicales, les ensembles de données
souvent limités en taille. Le surajustement est un risque important dans ce cas. Les méthodes de régularisation, en particulier
l'augmentation des données et l'arrêt précoce, aident les
les modèles formés pour detect anomalies dans les radiographies ou les IRM restent précis sur les nouvelles données des patients, ce qui permet d'obtenir de meilleurs résultats diagnostiques.
de meilleurs résultats diagnostiques.
Régularisation et concepts connexes
Il est utile de distinguer la régularisation des autres termes d'optimisation et de prétraitement :
-
Régularisation et normalisation: La normalisation consiste à ramener les données d'entrée dans une fourchette standard afin d'accélérer la convergence. Bien que des techniques telles que la
normalisation par lots peuvent avoir un léger effet de régularisation, leur objectif principal est de stabiliser la dynamique d'apprentissage.
régularisation, leur objectif principal est de stabiliser la dynamique d'apprentissage, alors que la régularisation pénalise explicitement la complexité.
explicitement la complexité.
-
Régularisation vs.
Réglage des hyperparamètres: Les paramètres de régularisation (comme le taux d'abandon ou la pénalité L2) sont eux-mêmes des hyperparamètres. Le réglage des hyperparamètres
est le processus plus large de recherche des valeurs optimales pour ces paramètres, souvent à l'aide d'outils tels que le
Ultralytics Tuner.
-
Régularisation et apprentissage d'ensemble: Les méthodes d'ensemble combinent les prédictions de plusieurs modèles afin de réduire la variance et d'améliorer la généralisation. Bien que
régularisation, elles le font en agrégeant divers modèles plutôt qu'en contraignant l'apprentissage d'un seul modèle.
l'apprentissage d'un seul modèle.