Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

GELU (Gaussian Error Linear Unit)

Découvrez comment la fonction d'activation GELU améliore les modèles de transformateur tels que GPT-4, en stimulant le flux de gradients, la stabilité et l'efficacité.

GELU (Gaussian Error Linear Unit) est une fonction d'activation haute performance qui est devenue une norme dans les architectures de réseaux neuronaux de pointe, en particulier les modèles Transformer. Elle est connue pour sa courbe lisse et non monotone, qui aide les modèles à apprendre des motifs complexes plus efficacement que les fonctions plus anciennes. Introduite dans l'article "Gaussian Error Linear Units (GELUs)", elle combine des propriétés d'autres fonctions comme le dropout et ReLU pour améliorer la stabilité de l'entraînement et les performances du modèle.

Fonctionnement de GELU

Contrairement à ReLU, qui coupe brutalement toutes les valeurs négatives, GELU pondère ses entrées en fonction de leur magnitude. Elle détermine de manière probabiliste s'il faut activer un neurone en multipliant l'entrée par la fonction de distribution cumulative (CDF) de la distribution gaussienne standard. Cela signifie que les entrées sont plus susceptibles d'être "abandonnées" (mises à zéro) d'autant plus qu'elles sont négatives, mais la transition est douce plutôt que brusque. Cette propriété de régularisation stochastique aide à prévenir des problèmes tels que le problème de disparition du gradient et permet une représentation plus riche des données, ce qui est crucial pour les modèles d'apprentissage profond modernes.

GELU vs. autres fonctions d'activation

GELU offre plusieurs avantages par rapport aux autres fonctions d'activation populaires, ce qui a conduit à son adoption généralisée.

  • GELU vs. ReLU: La principale différence est la douceur de GELU. Bien que ReLU soit simple sur le plan computationnel, son angle vif à zéro peut parfois entraîner le problème de la « mort de ReLU », où les neurones deviennent définitivement inactifs. La courbe lisse de GELU évite ce problème, facilitant une descente de gradient plus stable et conduisant souvent à une meilleure précision finale.
  • GELU vs. Leaky ReLU: Leaky ReLU tente de résoudre le problème de la mort de ReLU en autorisant une petite pente négative pour les entrées négatives. Cependant, la nature non linéaire et incurvée de GELU offre une plage d'activation plus dynamique qui s'est avérée surpasser Leaky ReLU dans de nombreuses tâches d'apprentissage profond.
  • GELU vs. SiLU (Swish): L'unité linéaire sigmoïde (SiLU), également connue sous le nom de Swish, est très similaire à GELU. Les deux sont des fonctions lisses et non monotones qui ont montré d'excellentes performances. Le choix entre elles se résume souvent à des tests empiriques pour une architecture et un ensemble de données spécifiques, bien que certaines recherches suggèrent que SiLU peut être légèrement plus efficace dans certains modèles de vision par ordinateur. Les modèles comme Ultralytics YOLO utilisent souvent SiLU pour son équilibre entre performance et efficacité.

Applications dans l'IA et l'apprentissage profond

GELU est un élément clé de nombreux modèles d'IA parmi les plus puissants développés à ce jour.

Implémentation et utilisation

GELU est facilement disponible dans tous les principaux frameworks d'apprentissage profond, ce qui facilite son intégration dans les modèles personnalisés.

Les développeurs peuvent construire, entraîner et déployer des modèles en utilisant GELU avec des plateformes comme Ultralytics HUB, ce qui rationalise l'ensemble du cycle de vie MLOps, de l'augmentation des données au déploiement final du modèle.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers