Dégradé de fuite

Découvrez le problème du gradient disparaissant dans l'apprentissage profond, son impact sur les réseaux neuronaux et les solutions efficaces telles que ReLU, ResNets, etc.

Le problème de l'évanouissement du gradient est un défi courant rencontré lors de la formation des réseaux neuronaux profonds. Il se produit lorsque les gradients, qui sont les signaux utilisés pour mettre à jour les poids du réseau par rétropropagation, deviennent extrêmement faibles lorsqu'ils sont propagés de la couche de sortie vers les couches initiales. Lorsque ces gradients approchent de zéro, les poids des couches initiales ne sont pas mis à jour de manière efficace, voire pas du tout. Le processus d'apprentissage de ces couches s'arrête alors, ce qui empêche le modèle d'apprentissage profond de converger vers une solution optimale et d'apprendre à partir des données.

Quelles sont les causes des dégradés disparus ?

La cause principale de la disparition des gradients réside dans la nature de certaines fonctions d'activation et dans la profondeur du réseau lui-même.

Fonctions d'activation : Les fonctions d'activation traditionnelles, telles que les fonctions sigmoïde et tangente hyperbolique (tanh), compriment leur entrée dans une plage de sortie très réduite. Les dérivées de ces fonctions sont faibles. Au cours de la rétropropagation, ces petites dérivées sont multipliées sur de nombreuses couches. Plus le réseau comporte de couches, plus ces petits nombres sont multipliés, ce qui entraîne une diminution exponentielle du gradient final vers zéro.
Architectures profondes : Le problème est particulièrement prononcé dans les réseaux très profonds, y compris les premiers réseaux neuronaux récurrents (RNN), où les gradients sont propagés à travers de nombreux pas de temps. Chaque étape implique une multiplication, ce qui peut diminuer le signal du gradient sur de longues séquences.

Dégradés disparaissants et dégradés explosifs

Les gradients qui disparaissent sont l'opposé des gradients qui explosent. Les deux problèmes sont liés au flux de gradients pendant l'entraînement, mais ils ont des effets différents :

Gradients en voie de disparition : Les gradients diminuent de manière exponentielle jusqu'à ce qu'ils deviennent trop petits pour faciliter un apprentissage significatif dans les premières couches du réseau.
Explosion des gradients : Les gradients deviennent incontrôlables, ce qui entraîne des mises à jour massives du poids qui rendent le modèle instable et l'empêchent de converger.

Il est essentiel de résoudre ces deux problèmes pour réussir à former des modèles d'IA puissants et profonds.

Solutions et stratégies d'atténuation

Plusieurs techniques ont été développées pour lutter contre le problème du gradient qui s'évanouit :

Meilleures fonctions d'activation : Le remplacement de sigmoïde et de tanh par des fonctions telles que l'unité linéaire rectifiée (ReLU) ou ses variantes(Leaky ReLU, GELU) est une solution courante. La dérivée de ReLU est égale à 1 pour les entrées positives, ce qui empêche le gradient de diminuer.
Architectures avancées : Des architectures ont été conçues spécifiquement pour atténuer ce problème. Les réseaux résiduels (ResNets) introduisent des "connexions de saut" qui permettent au gradient de contourner des couches, offrant ainsi un chemin plus court pendant la rétropropagation. Pour les données séquentielles, les réseaux LSTM (Long Short-Term Memory) et GRU (Gated Recurrent Unit) utilisent des mécanismes de gating pour contrôler le flux d'informations et les gradients, comme indiqué dans l'article original sur les LSTM et l'article sur les GRU.
Initialisation des poids : Une initialisation correcte des poids du réseau, à l'aide de méthodes telles que l'initialisation de He ou de Xavier, peut contribuer à garantir que les gradients démarrent dans une fourchette raisonnable. Vous trouverez plus d'informations à ce sujet dans les discussions sur les meilleures pratiques en matière d'apprentissage profond.
Normalisation par lots : L'application de la normalisation par lots permet de normaliser les entrées de chaque couche, ce qui stabilise le réseau et réduit la dépendance à l'égard de l'initialisation, atténuant ainsi le problème de la disparition du gradient.

Impact dans le monde réel et exemples

L'élimination des gradients disparaissants a constitué une avancée décisive pour l'IA moderne.

Traitement du langage naturel (NLP) : Les premiers RNN ont échoué dans des tâches telles que la traduction automatique et l'analyse des sentiments à long terme parce qu'ils ne pouvaient pas mémoriser les informations du début d'une longue phrase. L'invention des LSTM et des GRU a permis aux modèles de capturer ces dépendances à longue portée. Les architectures modernes telles que le Transformer utilisent l'auto-attention pour contourner entièrement le problème du gradient séquentiel, ce qui permet d'obtenir des performances de pointe.
Vision par ordinateur : On pensait autrefois que le simple fait de rendre les réseaux neuronaux convolutifs (CNN) plus profonds n'améliorerait pas les performances en raison de difficultés d'apprentissage telles que l'évanouissement des gradients. L'introduction des architectures ResNet a prouvé que ce n'était pas le cas et a permis de créer des réseaux comportant des centaines de couches. Cela a conduit à des avancées majeures dans la classification et la segmentation des images, ainsi que dans la détection d'objets, formant la base de modèles tels que Ultralytics YOLO. L'entraînement de ces modèles implique souvent de grands ensembles de données de vision par ordinateur et peut être géré sur des plateformes comme Ultralytics HUB.

Dégradé de fuite

Une solution flexible de licences d'entreprise pour stimuler votre innovation

Entraîner des modèles d'IA en quelques secondes avec Ultralytics YOLO

Former des modèles YOLO en toute simplicité avec Ultralytics HUB

Quelles sont les causes des dégradés disparus ?

Dégradés disparaissants et dégradés explosifs

Solutions et stratégies d'atténuation

Impact dans le monde réel et exemples

Plus d'informations dans cette catégorie

FastVLM : Apple présente son nouveau modèle de langage de vision rapide

L'apprentissage automatique en boucle par l'homme (HITL) expliqué

Automatisation de la fabrication grâce à l'IA visionnaire

Rejoindre la communauté Ultralytics