GELU活性化関数がGPT-4のようなTransformerモデルをどのように強化し、勾配フロー、安定性、効率を高めるかをご覧ください。
GELU(Gaussian Error Linear Unit)は、高性能な活性化関数であり、最先端のニューラルネットワークアーキテクチャ、特にTransformerモデルの標準となっています。その滑らかで非単調な曲線で知られており、モデルが古い関数よりも複雑なパターンをより効果的に学習するのに役立ちます。「Gaussian Error Linear Units(GELU)」という論文で紹介され、ドロップアウトやReLUのような他の関数の特性を組み合わせて、トレーニングの安定性とモデルのパフォーマンスを向上させます。
ReLUはすべての負の値を急激にカットオフするのとは異なり、GELUはその入力の大きさに基いて重み付けします。入力に標準ガウス分布の累積分布関数(CDF)を掛けることによって、ニューロンをアクティブにするかどうかを確率的に決定します。これは、入力が負であればあるほど「ドロップ」(ゼロに設定)される可能性が高くなることを意味しますが、移行は急ではなくスムーズです。この確率的正規化特性は、勾配消失問題のような問題を回避するのに役立ち、データのより豊富な表現を可能にし、これは最新の深層学習モデルにとって非常に重要です。
GELUは、他の一般的な活性化関数に比べていくつかの利点があり、その広範な採用につながっています。
GELUは、今日までに開発された最も強力なAIモデルの多くにおいて、重要な構成要素となっています。
GELUは主要な深層学習フレームワークすべてで容易に利用可能であり、カスタムモデルへの組み込みが容易です。
torch.nn.GELU
」に詳細な情報が記載されています。 PyTorch GELUの公式ドキュメント.tf.keras.activations.gelu
」に記載されています。 TensorFlow APIドキュメント.開発者は、学習、モデルの構築、デプロイを、Ultralytics HUBのようなプラットフォームとGELUを用いて行うことができます。これは、データ拡張から最終的なモデルのデプロイまで、MLOpsライフサイクル全体を効率化します。