用語集

GELU（Gaussian Error Linear Unit）

GELU活性化関数がGPT-4のようなTransformerモデルをどのように強化し、勾配フロー、安定性、効率を高めるかをご覧ください。

GELU（Gaussian Error Linear Unit）は、高性能な活性化関数であり、最先端のニューラルネットワークアーキテクチャ、特にTransformerモデルの標準となっています。その滑らかで非単調な曲線で知られており、モデルが古い関数よりも複雑なパターンをより効果的に学習するのに役立ちます。「Gaussian Error Linear Units（GELU）」という論文で紹介され、ドロップアウトやReLUのような他の関数の特性を組み合わせて、トレーニングの安定性とモデルのパフォーマンスを向上させます。

GELUの仕組み

ReLUはすべての負の値を急激にカットオフするのとは異なり、GELUはその入力の大きさに基いて重み付けします。入力に標準ガウス分布の累積分布関数（CDF）を掛けることによって、ニューロンをアクティブにするかどうかを確率的に決定します。これは、入力が負であればあるほど「ドロップ」（ゼロに設定）される可能性が高くなることを意味しますが、移行は急ではなくスムーズです。この確率的正規化特性は、勾配消失問題のような問題を回避するのに役立ち、データのより豊富な表現を可能にし、これは最新の深層学習モデルにとって非常に重要です。

GELUと他の活性化関数の比較

GELUは、他の一般的な活性化関数に比べていくつかの利点があり、その広範な採用につながっています。

GELU vs. ReLU: 主な違いは、GELUの滑らかさです。ReLUは計算が簡単ですが、ゼロにおける鋭い角が原因で、ニューロンが永久に非アクティブになる「dying ReLU」問題が発生することがあります。GELUの滑らかな曲線は、この問題を回避し、より安定した勾配降下法を促進し、多くの場合、より優れた最終的な精度につながります。
GELU vs. Leaky ReLU: Leaky ReLUは、負の入力に対して小さな負の傾きを許容することで、ReLUのdying ReLU問題を解決しようとします。しかし、GELUの非線形で曲線的な性質は、より動的な活性化範囲を提供し、多くの深層学習タスクにおいてLeaky ReLUよりも優れた性能を発揮することが示されています。
GELU vs. SiLU（Swish）: Swishとしても知られるSigmoid Linear Unit（SiLU）は、GELUと非常によく似ています。どちらも滑らかで非単調な関数であり、優れた性能を発揮することが示されています。どちらを選択するかは、特定のアーキテクチャとデータセットに対する経験的なテストに帰着することが多いですが、一部の研究では、特定のコンピュータビジョンモデルにおいてSiLUの方がわずかに効率的である可能性があることが示唆されています。Ultralytics YOLOのようなモデルは、性能と効率のバランスをとるためにSiLUをよく利用します。

AIとディープラーニングの応用

GELUは、今日までに開発された最も強力なAIモデルの多くにおいて、重要な構成要素となっています。

自然言語処理（NLP）: GELUは、Transformerアーキテクチャのフィードフォワードネットワークにおける標準的な活性化関数です。これには、BERTやGPTシリーズのような先駆的なモデルが含まれており、これらはほぼすべての最新の大規模言語モデル（LLM）の基盤となっています。複雑な言語パターンを処理する能力により、機械翻訳やテキスト要約などのタスクに最適です。これらのモデルの詳細については、Hugging Faceなどの組織のリソースを参照してください。
コンピュータビジョン（CV）: NLPでの成功に続き、GELUはVision Transformer（ViT）モデルに採用されました。これらのモデルは、Transformerアーキテクチャを画像パッチに適用して、画像分類や物体検出のようなタスクを行います。ViTの性能は、GELUが視覚情報の処理において有効であることを示し、従来の畳み込みニューラルネットワーク（CNN）の優位性に挑戦しています。

実装と使用法

GELUは主要な深層学習フレームワークすべてで容易に利用可能であり、カスタムモデルへの組み込みが容易です。

PyTorch: 実装形式 torch.nn.GELU」に詳細な情報が記載されています。 PyTorch GELUの公式ドキュメント.
TensorFlow: 利用可能 tf.keras.activations.gelu」に記載されています。 TensorFlow APIドキュメント.

開発者は、学習、モデルの構築、デプロイを、Ultralytics HUBのようなプラットフォームとGELUを用いて行うことができます。これは、データ拡張から最終的なモデルのデプロイまで、MLOpsライフサイクル全体を効率化します。

GELU（Gaussian Error Linear Unit）

Ultralytics YOLOモデルをトレーニングして、業界全体のワークフローを効率化

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOでAIモデルを数秒でトレーニング

GELUの仕組み

GELUと他の活性化関数の比較

AIとディープラーニングの応用

実装と使用法

このカテゴリの関連記事

ビットから量子ビットへ：量子最適化がAIをどう変えるか

初心者のためのAIモデルのトレーニング方法クイックガイド

洞察に満ちたドバイから：GDG MENA-Tサミット2025の要点

Ultralyticsコミュニティに参加しませんか？