ヨロビジョン深圳
深セン
今すぐ参加
用語集

Leaky ReLU

AIとMLにおけるLeaky ReLU活性化関数のパワーをご覧ください。ReLUの消失問題を解決し、CV、NLP、GANなどのモデル性能を向上させます。

Leaky ReLU(Leaky Rectified Linear Unit)は、ニューラルネットワーク(NN)で使用される活性化関数であり、標準的なReLU(Rectified Linear Unit)関数を直接改良したものです。これは、「ReLUの死滅」問題に対処するために設計されました。この問題では、ニューロンが非アクティブになり、トレーニング中に学習を停止する可能性があります。Leaky ReLUは、負の入力値に対して小さい非ゼロの傾きを導入することにより、ニューロンが常に勾配を持つようにし、深層学習(DL)モデルでのより安定した一貫性のあるトレーニングを可能にします。この単純な変更は、さまざまなアーキテクチャで効果的であることが証明されており、モデルのパフォーマンスとトレーニングのダイナミクスの向上に役立っています。

Leaky ReLUが Dying Neuron問題をどのように解決するか

Leaky ReLUの主な動機は、dying neuron(ニューロンの死滅)問題を解決することです。標準的なReLU関数では、ニューロンへの負の入力はすべてゼロの出力になります。ニューロンが常に負の入力を受け取ると、常にゼロを出力します。その結果、バックプロパゲーション中にこのニューロンを流れる勾配もゼロになります。これは、ニューロンの重みが更新されなくなり、学習プロセスへの参加が事実上停止することを意味します。つまり、ニューロンが「死滅」します。

Leaky ReLUは、ユニットがアクティブでない場合に小さい正の勾配を許可することでこれに対処します。負の入力に対してゼロを出力する代わりに、小さい定数(「リーク」)を掛けた値を出力します。これにより、ニューロンがゼロ勾配を持つことがなくなり、回復して学習を継続できます。このアプローチは、畳み込みネットワークにおけるRectified Activationの実証的評価に関する論文で最初に詳しく説明されました。

実際のアプリケーション

Leaky ReLUのより安定したトレーニングを促進する能力は、人工知能(AI)のいくつかの分野で価値があるものとなっています。

  • Generative Adversarial Networks (GANs): Leaky ReLUは、敵対的生成ネットワーク(GAN)の識別器ネットワークで頻繁に使用されます。GANは、生成器と識別器の間の微妙なバランスを必要とし、標準的なReLUからの勾配消失がこの学習を不安定にする可能性があります。GoogleのGANに関する開発者ブログなどのリソースで説明されているように、Leaky ReLUの一貫した非ゼロ勾配は、両方のネットワークがより効果的に学習するのに役立ち、より高品質な合成データの生成につながります。
  • 物体検出モデル: 初期の影響力のある物体検出モデル(YOLOのいくつかのバージョンを含む)は、Leaky ReLUを採用していました。深層畳み込みニューラルネットワーク(CNN)では、dying neuron(死んだニューロン)がモデルの重要な特徴の学習を妨げることがあります。Leaky ReLUは、すべてのニューロンがアクティブな状態を維持するのに役立ち、COCOのような多様なデータセットにわたってオブジェクトを検出するモデルの能力を向上させます。Ultralytics YOLO11のような多くの最新アーキテクチャは、現在より高度な関数を使用していますが、Leaky ReLUはそれらの基盤を確立する上で重要な要素でした。

Leaky ReLUと他の活性化関数の比較

Leaky ReLUは、元のReLUを改善するために設計されたいくつかの活性化関数の1つです。他の関数との関係を理解することは、特定のタスクに適した関数を選択するのに役立ちます。

  • ReLU: 主な違いは、ReLUは負の入力に対して完全に非アクティブであるのに対し、Leaky ReLUは小さい一定の勾配を維持することです。
  • SiLUとGELU: SiLU(Sigmoid Linear Unit)GELU(Gaussian Error Linear Unit)のような新しい活性化関数は、滑らかで非単調な曲線を提供し、より良い精度につながることがあります。これらは、Transformerのような高度なモデルでよく見られます。ただし、Leaky ReLUの単純な線形演算よりも計算量が多くなります。活性化関数の詳細な概要で、さらに比較できます。
  • Parametric ReLU (PReLU): PReLUは、リーク係数がトレーニング中に学習されるバリアントであり、固定されたハイパーパラメータではなく、モデルのパラメータになります。

活性化関数の最適な選択は、特定のアーキテクチャ、データセット(Ultralytics Datasetsで入手可能なものなど)、およびハイパーパラメータチューニングの結果によって異なります。Leaky ReLUは、そのシンプルさ、低い計算オーバーヘッド、およびニューロンの消失を防ぐ効果から、依然として強力な選択肢です。

PyTorchTensorFlowなどの主要な深層学習フレームワークは、PyTorchのLeakyReLUTensorFlowのLeakyReLUの公式ドキュメントに見られるように、簡単な実装を提供します。このアクセシビリティにより、開発者はUltralytics HUBなどのプラットフォームを使用して、簡単に実験を行い、モデルに統合できます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました