Glossaire

Explosion du gradient

Apprenez à gérer les gradients explosifs dans l'apprentissage profond pour assurer un entraînement stable pour des tâches telles que la détection d'objets, l'estimation de pose, et plus encore.

L'explosion des gradients fait référence à une instabilité critique rencontrée au cours de la formation des réseaux neuronaux profonds où les gradients de la fonction de perte s'accumulent et deviennent plus importants que les autres. gradients de la fonction de perte s'accumulent et deviennent excessivement grands. Ce phénomène se produit au cours de la rétropropagation, le processus utilisé pour calculer les de l'erreur et mettre à jour les poids du modèle. Lorsque ces gradients Lorsque ces gradients croissent de manière exponentielle, ils obligent l'algorithme d'optimisation à effectuer des déplacements massifs. l'algorithme d'optimisation à effectuer des mises à jour massives des paramètres du réseau. des mises à jour massives des paramètres du réseau. Par conséquent, le modèle peut dépasser sa configuration optimale, ce qui conduit à un processus d'apprentissage divergent où la valeur de la perte fluctue. processus d'apprentissage divergent où la valeur de la perte fluctue ou devient NaN (Not a Number), rendant le modèle incapable d'apprendre à partir des données d'apprentissage. données d'apprentissage.

Causes et mécanismes

La cause première de l'explosion des gradients réside dans la règle mathématique de la chaîne utilisée pour calculer les dérivées dans les architectures profondes. dans les architectures profondes. Lorsque les erreurs se propagent de la couche de sortie vers la couche d'entrée, elles sont multipliées par les poids de chaque couche intermédiaire. par les poids de chaque couche intermédiaire.

Profondeur des réseaux profonds : dans les réseaux très profonds, tels que ceux utilisés dans l'apprentissage profond (DL), la multiplication de nombreux gradients est un facteur déterminant. l 'apprentissage profond (DL), la multiplication de nombreux gradients supérieurs à 1,0 donne une valeur qui croît de manière exponentielle à chaque couche, comme les intérêts composés.
Mauvaise initialisation : Si les poids initiaux initiaux sont trop élevés, le signal s'amplifie à chaque étape. à chaque étape. Des stratégies d'initialisation Les stratégies d'initialisation des poids sont essentielles pour maintenir les signaux dans une fourchette gérable. pour maintenir les signaux dans une fourchette gérable.
Taux d'apprentissage élevés : A d'apprentissage trop agressif peut exacerber le problème, en amenant l'optimiseur à prendre des mesures trop importantes, poussant le modèle dans des régions instables. le problème, en amenant l'optimiseur à prendre des mesures trop importantes, poussant le modèle dans des régions instables du paysage d'erreur. d'erreur.
Architectures récurrentes : Ce problème est notoirement courant dans les réseaux neuronaux récurrents (RNN). réseaux neuronaux récurrents (RNN), où les mêmes poids sont appliqués de manière répétée sur de longues séquences de temps.

Stratégies de prévention

Les cadres et architectures d'IA modernes utilisent des techniques spécifiques pour atténuer ce risque et garantir une convergence stable.

Découpage du dégradé : Il s'agit de la solution la plus directe. Elle consiste à réduire le vecteur de gradient si sa norme dépasse un seuil prédéfini. Cela permet de s'assurer que les mises à jour restent dans une limite raisonnable, quelle que soit l'inclinaison de la surface d'erreur. Vous pouvez en savoir plus sur les mécanique de l'écrêtage de gradient dans les guides techniques.
Normalisation par lots : En normalisant les entrées des couches, normalisation par lots stabilise la distribution des activations dans le réseau, empêchant les valeurs d'échapper à tout contrôle. distribution des activations dans l'ensemble du réseau, empêchant les valeurs de devenir incontrôlables.
Régularisation du poids : Les techniques telles que la régularisation L1 et L2 pénalisent les grandes valeurs de poids, découragent le modèle de maintenir des paramètres qui pourraient amplifier les gradients.
Optimiseurs avancés : Des algorithmes tels que l'optimiseur Adam adaptent le taux d'apprentissage pour chaque paramètre, ce qui permet de mieux gérer les échelles de gradient incohérentes que la descente de gradient stochastique (SGD) standard. Descente stochastique du gradient (SGD).

Le texte suivant PyTorch montre comment mettre en œuvre manuellement l'écrêtage de gradient manuellement, une technique gérée automatiquement dans les flux de travail de formation de haut niveau tels que ceux de l'outil ultralytics:

import torch
import torch.nn as nn

# Define a simple linear model and optimizer
model = nn.Linear(10, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

# Simulate a training step
loss = model(torch.randn(10)).sum()
loss.backward()

# Apply gradient clipping to prevent explosion before the optimizer step
# This limits the maximum norm of the gradients to 1.0
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

optimizer.step()

Gradients explosifs vs. gradients évanescents

Il est important de distinguer les gradients explosifs de leur contrepartie, le gradient disparaissant. Bien que les deux découlent de la même multiplication de règles en chaîne dans les réseaux profonds, leurs effets sont opposés :

Dégradé explosif : Les gradients deviennent essentiellement infinis. Les poids du modèle changent radicalement, provoquant des divergences et des erreurs NaN. Ce problème est souvent résolu par l'écrêtage ou l'abaissement des taux d'apprentissage.
Gradient de disparition : Les gradients approchent de zéro. Les poids du modèle dans les premières couches cessent de changer, ce qui entraîne l'arrêt de l'apprentissage du réseau neuronal. Ce problème est souvent résolu à l'aide de connexions sautées (comme dans les ResNets) ou de fonctions d'activation fonctions d'activation spécifiques telles que ReLU.

Applications concrètes

La gestion de l'ampleur du gradient est une condition préalable à l'entraînement des modèles sophistiqués utilisés dans les systèmes modernes d'intelligence artificielle (IA). modernes d 'intelligence artificielle (IA).

Traitement du langage naturel (NLP) : dans des tâches telles que la traduction automatique ou la génération de texte à l'aide de LSTM, les modèles doivent traiter de longues longues phrases. Sans écrêtage de gradient, les gradients accumulés sur de nombreux pas de temps entraîneraient le blocage de l'apprentissage, empêchant le modèle d'apprendre les structures grammaticales. d'apprentissage, empêchant le modèle d'apprendre les structures grammaticales.
Détection d'objets haute performance : Lors de l'entraînement de modèles de vision de pointe tels que YOLO11 sur de grands ensembles de données tels que COCOl'architecture est profonde et le paysage des est complexe. Les modèles Ultralytics utilisent des conceptions architecturales stables et des hyperparamètres d'apprentissage par défaut (y compris des tailles de lots nominales). (y compris la taille nominale des lots) qui empêchent intrinsèquement les gradients d'exploser, garantissant ainsi des performances robustes en matière de détection d'objets. performances de détection d'objets robustes.

Pour en savoir plus sur la stabilisation de l'entraînement des réseaux neuronaux, consultez les notes de cours du cours CS231n de Stanford. Stanford CS231n permet d'approfondir la perspective mathématique. mathématique plus approfondie.

Explosion du gradient

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Causes et mécanismes

Stratégies de prévention

Gradients explosifs vs. gradients évanescents

Applications concrètes

En savoir plus dans cette catégorie

Suivi des balles de golf à l'aideYOLO Ultralytics

Comprendre pourquoi l'annotation humaine est essentielle

Qu'est-ce que la distillation de jeux de données ? Un aperçu rapide

Rejoindre la communauté Ultralytics