用語集

消えるグラデーション

ディープラーニングにおける消失勾配問題、ニューラルネットワークへの影響、そしてReLUやResNetsなどの効果的な解決策をご紹介します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

勾配の消失は、ディープ・ニューラル・ネットワーク(NN)、特にリカレント・ニューラル・ネットワーク(RNN)やディープ・フィードフォワード・ネットワークのような多くの層を持つNNの学習中に遭遇する一般的な課題である。これはバックプロパゲーションの過程で発生し、ネットワークの重みに対する損失関数の勾配が、出力層から前の層へと逆伝播されるにつれて極端に小さくなる。この勾配が極端に小さくなると、初期層のモデル重みの更新が無視できなくなり、これらの層の学習が事実上停止する。これは、複雑なパターンを学習し、多くのディープラーニング(DL)タスクにとって重要な、データの長距離依存関係を捉えるネットワークの能力を妨げる。

グラデーションの消失が問題になる理由

勾配が消えることの核心的な問題は、学習プロセスを停滞させてしまうことだ。機械学習(ML)モデルは、勾配降下法(Gradient Descent)やAdamのような最適化アルゴリズムを使用して計算された誤差信号(勾配)に基づいて内部パラメータを調整することによって学習する。勾配がゼロに近い場合、パラメータの更新は最小限か存在しない。ディープ・ネットワークでは、勾配信号がレイヤーを通過する際に小さな数値が繰り返し乗算されるため、この問題はさらに深刻になる。その結果、入力に最も近い層の学習速度は、出力に近い層よりもはるかに遅くなる。このため、ネットワークは最適解に収束することができず、全体的な性能と精度が制限される。この現象を理解することは、効果的なモデル学習にとって極めて重要である。

勾配が爆発する原因と比較

勾配の消失は、しばしば次のような原因で起こる:

  1. 活性化関数の選択: シグモイドや 双曲線正接(tanh)のような活性化関数は、特に飽和領域で導関数が1より小さくなります。バックプロパゲーションでは、このような小さな導関数を何層にもわたって掛け合わせると、勾配が指数関数的に縮小します。
  2. ディープアーキテクチャ:最新のネットワークは深度が深いため、勾配が乗算される回数が増え、勾配が消失する可能性が高くなる。
  3. 重みの初期化:重みの初期化が不十分な場合も、問題の原因となる。

消失勾配を、関連する以下の問題と区別することは重要である。 勾配の爆発.爆発的勾配は、勾配が過度に大きくなり、学習が不安定になったり、重みの更新が大きく振動したりする場合に発生します。これは通常、勾配が繰り返し1より大きな数値で掛け合わされる場合に起こる。消失勾配が学習を妨げるのに対して、爆発勾配は学習を発散させる。爆発する勾配に対処するために、勾配クリッピングのようなテクニックがよく使われる。

軽減テクニック

消失勾配問題に対処するために、いくつかの戦略が開発されてきた:

  • ReLUとその変種: ReLU (Rectified Linear Unit)やその変種(Leaky ReLUGELUSiLU)のような活性化関数を使用すると、その導関数が正の入力に対して1となり、その領域で勾配が縮むのを防ぐことができるからだ。
  • 特殊なアーキテクチャ: Residual Networks (ResNet)のようなアーキテクチャは、勾配が層を迂回することを可能にする「スキップ接続」を導入し、バックプロパゲーション中により短い経路を提供する。シーケンシャルなデータの場合、LSTM(Long Short-Term Memory)やGRU(Gated Recurrent Unit)は、ゲーティング機構を使って情報の流れを制御し、長いシーケンスでも勾配を維持する。
  • 重みの初期化: He初期化やXavier/Glorot初期化などの適切な初期化スキームは、レイヤー間の勾配分散を維持するのに役立つ。
  • バッチ正規化: バッチ正規化は、レイヤーの入力を正規化することで学習の安定化を助け、間接的に勾配の消失(および爆発)を緩和することができる。
  • グラデーションクリッピング:主に爆発するグラデーションのためのものですが、グラデーションに最大しきい値を設定することで、大きな振動の後にグラデーションが小さくなりすぎるのを防ぐことができる場合があります。

実社会への影響と実例

勾配の消失への対処は、AIの進歩にとって極めて重要である:

  1. 自然言語処理(NLP):初期のRNNは、勾配が消失するため、機械翻訳や 感情分析のようなタスクで長文に苦戦していた。LSTMと GRUの開発により、モデルは長距離の依存関係を学習できるようになり、パフォーマンスが大幅に向上した。Transformerのような最新のアーキテクチャは、自己注意のようなメカニズムを使用して、この問題をさらに回避する。
  2. コンピュータビジョン ResNetのようなアーキテクチャが登場するまで、非常に深い畳み込みニューラルネットワーク(CNN)のトレーニングは困難だった。ResNetは数百から数千の層を持つネットワークを可能にし、画像分類物体検出(以下のようなモデルで使用されている)において画期的な進歩をもたらしました。 Ultralytics YOLO画像セグメンテーションに画期的な進歩をもたらした。これらのモデルを学習するために使用される様々なコンピュータビジョンデータセットを調べることができます。

消失勾配を理解し緩和することは、効果的なディープラーニングモデルを設計しトレーニングする上で依然として重要な側面であり、今日我々が目にする強力なAIアプリケーションを可能にし、多くの場合Ultralytics HUBのようなプラットフォームを使用して管理・展開されている。

すべて読む