Glossaire

GELU (Gaussian Error Linear Unit)

Découvrez comment la fonction d'activation GELU améliore les modèles de transformateur tels que GPT-4, en stimulant le flux de gradients, la stabilité et l'efficacité.

GELU (Gaussian Error Linear Unit) est une fonction d'activation haute performance qui est devenue une norme dans les architectures de réseaux neuronaux de pointe, en particulier les modèles Transformer. Elle est connue pour sa courbe lisse et non monotone, qui aide les modèles à apprendre des motifs complexes plus efficacement que les fonctions plus anciennes. Introduite dans l'article "Gaussian Error Linear Units (GELUs)", elle combine des propriétés d'autres fonctions comme le dropout et ReLU pour améliorer la stabilité de l'entraînement et les performances du modèle.

Fonctionnement de GELU

Contrairement à ReLU, qui coupe brutalement toutes les valeurs négatives, GELU pondère ses entrées en fonction de leur magnitude. Elle détermine de manière probabiliste s'il faut activer un neurone en multipliant l'entrée par la fonction de distribution cumulative (CDF) de la distribution gaussienne standard. Cela signifie que les entrées sont plus susceptibles d'être "abandonnées" (mises à zéro) d'autant plus qu'elles sont négatives, mais la transition est douce plutôt que brusque. Cette propriété de régularisation stochastique aide à prévenir des problèmes tels que le problème de disparition du gradient et permet une représentation plus riche des données, ce qui est crucial pour les modèles d'apprentissage profond modernes.

GELU vs. autres fonctions d'activation

GELU offre plusieurs avantages par rapport aux autres fonctions d'activation populaires, ce qui a conduit à son adoption généralisée.

GELU vs. ReLU: La principale différence est la douceur de GELU. Bien que ReLU soit simple sur le plan computationnel, son angle vif à zéro peut parfois entraîner le problème de la « mort de ReLU », où les neurones deviennent définitivement inactifs. La courbe lisse de GELU évite ce problème, facilitant une descente de gradient plus stable et conduisant souvent à une meilleure précision finale.
GELU vs. Leaky ReLU: Leaky ReLU tente de résoudre le problème de la mort de ReLU en autorisant une petite pente négative pour les entrées négatives. Cependant, la nature non linéaire et incurvée de GELU offre une plage d'activation plus dynamique qui s'est avérée surpasser Leaky ReLU dans de nombreuses tâches d'apprentissage profond.
GELU vs. SiLU (Swish): L'unité linéaire sigmoïde (SiLU), également connue sous le nom de Swish, est très similaire à GELU. Les deux sont des fonctions lisses et non monotones qui ont montré d'excellentes performances. Le choix entre elles se résume souvent à des tests empiriques pour une architecture et un ensemble de données spécifiques, bien que certaines recherches suggèrent que SiLU peut être légèrement plus efficace dans certains modèles de vision par ordinateur. Les modèles comme Ultralytics YOLO utilisent souvent SiLU pour son équilibre entre performance et efficacité.

Applications dans l'IA et l'apprentissage profond

GELU est un élément clé de nombreux modèles d'IA parmi les plus puissants développés à ce jour.

Traitement du Langage Naturel (TAL): GELU est la fonction d'activation standard dans les réseaux feed-forward des architectures Transformer. Cela inclut les modèles phares comme BERT et la série GPT, qui sont le fondement de presque tous les Grands Modèles de Langage (LLM) modernes. Sa capacité à gérer des schémas linguistiques complexes le rend idéal pour des tâches telles que la traduction automatique et la summarization de texte. Vous pouvez en savoir plus sur ces modèles dans les ressources d'organisations comme Hugging Face.
Vision par ordinateur (CV) : Suite à son succès en NLP, GELU a été adopté dans les modèles de Vision Transformer (ViT). Ces modèles appliquent l'architecture Transformer aux patchs d'image pour des tâches telles que la classification d'images et la détection d'objets. Les performances des ViT ont démontré l'efficacité de GELU dans le traitement des informations visuelles, remettant en question la domination des réseaux neuronaux convolutifs (CNN) traditionnels.

Implémentation et utilisation

GELU est facilement disponible dans tous les principaux frameworks d'apprentissage profond, ce qui facilite son intégration dans les modèles personnalisés.

PyTorch : Implémenté en tant que torch.nn.GELU, avec des informations détaillées dans le documentation officielle PyTorch GELU.
TensorFlow: Disponible en tant que tf.keras.activations.gelu, qui est documenté dans le Documentation de l'API TensorFlow.

Les développeurs peuvent construire, entraîner et déployer des modèles en utilisant GELU avec des plateformes comme Ultralytics HUB, ce qui rationalise l'ensemble du cycle de vie MLOps, de l'augmentation des données au déploiement final du modèle.

GELU (Gaussian Error Linear Unit)

Entraînez les modèles Ultralytics YOLO pour rationaliser les flux de travail dans tous les secteurs

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Entraînez des modèles d'IA en quelques secondes avec Ultralytics YOLO

Fonctionnement de GELU

GELU vs. autres fonctions d'activation

Applications dans l'IA et l'apprentissage profond

Implémentation et utilisation

En savoir plus dans cette catégorie

Un guide rapide pour les débutants sur la façon d'entraîner un modèle d'IA

De Dubaï avec des idées : Principaux enseignements du GDG MENA-T Summit 2025

Exploration de l'apprentissage par ensembles et de son rôle dans l'IA et la ML

Rejoignez la communauté Ultralytics