Découvrez comment la fonction d'activation GELU améliore les modèles de transformateur tels que GPT-4, en stimulant le flux de gradients, la stabilité et l'efficacité.
GELU (Gaussian Error Linear Unit) est une fonction d'activation haute performance qui est devenue une norme dans les architectures de réseaux neuronaux de pointe, en particulier les modèles Transformer. Elle est connue pour sa courbe lisse et non monotone, qui aide les modèles à apprendre des motifs complexes plus efficacement que les fonctions plus anciennes. Introduite dans l'article "Gaussian Error Linear Units (GELUs)", elle combine des propriétés d'autres fonctions comme le dropout et ReLU pour améliorer la stabilité de l'entraînement et les performances du modèle.
Contrairement à ReLU, qui coupe brutalement toutes les valeurs négatives, GELU pondère ses entrées en fonction de leur magnitude. Elle détermine de manière probabiliste s'il faut activer un neurone en multipliant l'entrée par la fonction de distribution cumulative (CDF) de la distribution gaussienne standard. Cela signifie que les entrées sont plus susceptibles d'être "abandonnées" (mises à zéro) d'autant plus qu'elles sont négatives, mais la transition est douce plutôt que brusque. Cette propriété de régularisation stochastique aide à prévenir des problèmes tels que le problème de disparition du gradient et permet une représentation plus riche des données, ce qui est crucial pour les modèles d'apprentissage profond modernes.
GELU offre plusieurs avantages par rapport aux autres fonctions d'activation populaires, ce qui a conduit à son adoption généralisée.
GELU est un élément clé de nombreux modèles d'IA parmi les plus puissants développés à ce jour.
GELU est facilement disponible dans tous les principaux frameworks d'apprentissage profond, ce qui facilite son intégration dans les modèles personnalisés.
torch.nn.GELU
, avec des informations détaillées dans le documentation officielle PyTorch GELU.tf.keras.activations.gelu
, qui est documenté dans le Documentation de l'API TensorFlow.Les développeurs peuvent construire, entraîner et déployer des modèles en utilisant GELU avec des plateformes comme Ultralytics HUB, ce qui rationalise l'ensemble du cycle de vie MLOps, de l'augmentation des données au déploiement final du modèle.