YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

GELU(Gaussian Error Linear Unit)

GELU活性化関数がGPT-4のようなTransformerモデルをどのように強化し、勾配フロー、安定性、効率を高めるかをご覧ください。

GELU(Gaussian Error Linear Unit)は、高性能な活性化関数であり、最先端のニューラルネットワークアーキテクチャ、特にTransformerモデルの標準となっています。その滑らかで非単調な曲線で知られており、モデルが古い関数よりも複雑なパターンをより効果的に学習するのに役立ちます。「Gaussian Error Linear Units(GELU)」という論文で紹介され、ドロップアウトReLUのような他の関数の特性を組み合わせて、トレーニングの安定性とモデルのパフォーマンスを向上させます。

GELUの仕組み

ReLUはすべての負の値を急激にカットオフするのとは異なり、GELUはその入力の大きさに基いて重み付けします。入力に標準ガウス分布の累積分布関数(CDF)を掛けることによって、ニューロンをアクティブにするかどうかを確率的に決定します。これは、入力が負であればあるほど「ドロップ」(ゼロに設定)される可能性が高くなることを意味しますが、移行は急ではなくスムーズです。この確率的正規化特性は、勾配消失問題のような問題を回避するのに役立ち、データのより豊富な表現を可能にし、これは最新の深層学習モデルにとって非常に重要です。

GELUと他の活性化関数の比較

GELUは、他の一般的な活性化関数に比べていくつかの利点があり、その広範な採用につながっています。

  • GELU vs. ReLU: 主な違いは、GELUの滑らかさです。ReLUは計算が簡単ですが、ゼロにおける鋭い角が原因で、ニューロンが永久に非アクティブになる「dying ReLU」問題が発生することがあります。GELUの滑らかな曲線は、この問題を回避し、より安定した勾配降下法を促進し、多くの場合、より優れた最終的な精度につながります。
  • GELU vs. Leaky ReLU: Leaky ReLUは、負の入力に対して小さな負の傾きを許容することで、ReLUのdying ReLU問題を解決しようとします。しかし、GELUの非線形で曲線的な性質は、より動的な活性化範囲を提供し、多くの深層学習タスクにおいてLeaky ReLUよりも優れた性能を発揮することが示されています。
  • GELU vs. SiLU(Swish): Swishとしても知られるSigmoid Linear Unit(SiLU)は、GELUと非常によく似ています。どちらも滑らかで非単調な関数であり、優れた性能を発揮することが示されています。どちらを選択するかは、特定のアーキテクチャとデータセットに対する経験的なテストに帰着することが多いですが、一部の研究では、特定のコンピュータビジョンモデルにおいてSiLUの方がわずかに効率的である可能性があることが示唆されています。Ultralytics YOLOのようなモデルは、性能と効率のバランスをとるためにSiLUをよく利用します。

AIとディープラーニングの応用

GELUは、今日までに開発された最も強力なAIモデルの多くにおいて、重要な構成要素となっています。

実装と使用法

GELUは主要な深層学習フレームワークすべてで容易に利用可能であり、カスタムモデルへの組み込みが容易です。

開発者は、学習、モデルの構築、デプロイを、Ultralytics HUBのようなプラットフォームとGELUを用いて行うことができます。これは、データ拡張から最終的なモデルのデプロイまで、MLOpsライフサイクル全体を効率化します。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました