用語集

雨漏りするReLU

AIとMLのためのLeaky ReLU活性化のパワーを発見してください。瀕死のReLU問題を解決し、CV、NLP、GANなどのモデル性能を向上させます!

Leaky Rectified Linear Unit (Leaky ReLU)は、ニューラルネットワーク(NN)で使用される活性化関数で、標準的なRectified Linear Unit (ReLU)関数を直接改良したものである。ReLUは、学習中にニューロンが不活性になり、学習を停止してしまう「瀕死のReLU」問題に対処するために設計された。負の入力値に対してゼロではない小さな勾配を導入することで、Leaky ReLUはニューロンが常に勾配を持つことを保証し、ディープラーニング(DL)モデルにおいてより安定した一貫性のある学習を可能にする。このシンプルな修正は、様々なアーキテクチャで有効であることが証明されており、モデルのパフォーマンスとトレーニングダイナミクスの向上に役立っている。

リークしたReLUが瀕死のニューロン問題を解決する方法

リークReLUの主な動機は、瀕死のニューロン問題を解決することである。標準的なReLU関数では、ニューロンへの負の入力はすべてゼロを出力する。もしあるニューロンが常に負の入力を受 け取れば、常にゼロを出力する。その結果、バックプロパゲー ション中にこのニューロンを流れる勾配もゼロになる。これは、ニューロンの重みが更新されなくなり、学習プロセスへの参加が事実上停止する、つまり "死ぬ "ことを意味する。

リークReLUは、ユニットがアクティブでないときに小さな正の勾配を許容することによって、これに対処する。負の入力に対してゼロを出力する代わりに、小さな定数(「リーク」)を掛けた値を出力する。これにより、ニューロンがゼロ勾配になることはなく、回復して学習を続けることができる。このアプローチは、「Empirical Evaluation of Rectified Activations in Convolutional Network」という論文で初めて詳述された。

実世界での応用

Leaky ReLUは、より安定したトレーニングを促進する能力があるため、人工知能(AI)のいくつかの領域で重宝されている。

  • 生成的会話ネットワーク(GAN):リークReLUは、Generative Adversarial Networks(GAN)の識別器ネットワークで頻繁に使用される。GANは生成器と識別器の間の微妙なバランスを必要とし、標準的なReLUから勾配が消失すると、この学習が不安定になる可能性がある。GANに関するGoogleのDeveloperブログなどのリソースで説明されているように、Leaky ReLUの一貫した非ゼロの勾配は、両方のネットワークがより効果的に学習するのを助け、より高品質な合成データの生成につながります。
  • 物体検出モデル: YOLOのいくつかのバージョンを含む、初期の、しかし影響力のある物体検出モデルは、Leaky ReLUを採用している。深層畳み込みニューラルネットワーク(CNN)では、ニューロンが死滅すると、モデルが重要な特徴を学習できなくなる可能性がある。Leaky ReLUは、すべてのニューロンがアクティブであることを保証し、COCOのような多様なデータセットにわたって物体を検出するモデルの能力を向上させるのに役立つ。現在、Ultralytics YOLO11のような多くの最新アーキテクチャは、より高度な機能を使用していますが、Leaky ReLUはその基盤を確立する上で重要なコンポーネントでした。

リークしたReLUと他の活性化機能との比較

リークReLUは、オリジナルのReLUを改良するために設計されたいくつかの活性化関数のひとつである。他の関数との関係を理解することは、与えられたタスクに適した関数を選択するのに役立ちます。

  • ReLU:重要な違いは、ReLUが負入力に対して完全に不活性であるのに対し、Leaky ReLUは小さな一定の勾配を維持することである。
  • SiLUとGELU: SiLU(Sigmoid Linear Unit)やGELU(Gaussian Error Linear Unit)のような新しい活性化関数は、滑らかで単調でない曲線を提供し、精度を向上させることがあります。これらはTransformersのような高度なモデルによく見られます。しかし、これらはLeaky ReLUの単純な線形演算よりも計算が複雑です。活性化関数の詳細な概要は、さらなる比較を提供します。
  • パラメトリックReLU(PReLU):PReLUは、リーク係数が学習中に学習され、固定ハイパーパラメータではなく、モデルのパラメータとなる。

活性化関数の最適な選択は、多くの場合、特定のアーキテクチャ、データセット(Ultralytics Datasetsで利用可能なものなど)、およびハイパーパラメータチューニングの結果に依存する。Leaky ReLUは、その単純さ、計算オーバヘッドの低さ、ニューロン死を防ぐ有効性から、依然として有力な選択肢である。

PyTorchや TensorFlowのような主要な深層学習フレームワークは、PyTorchのLeakyReLUや TensorFlowのLeakyReLUの公式ドキュメントに見られるように、わかりやすい実装を提供している。このアクセシビリティにより、開発者はUltralytics HUBのようなプラットフォームを使って簡単に実験し、モデルに統合することができる。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク