ニューラルネットワークにおけるTanh活性化関数のパワーをご覧ください。ゼロ中心の効率で、AIが複雑なデータをモデル化する方法を学びます。
Tanh (Hyperbolic Tangent) は、この分野で広く使われている活性化関数である。 活性化関数である。 非線形性をニューラルネットワークに導入する ニューラルネットワークに非線形性を導入する。数学的には、入力値を-1から1の間の特定の範囲に押し込める。 この「S」字型の曲線は、シグモイド関数に似ているが、以下のような明確な利点がある。 シグモイド関数に似ているが、出力がゼロ中心であるため、明確な利点がある。 ゼロ中心の出力。負の入力を強い負の出力に、正の入力を強い正の出力にマッピングすることで、Tanhは複雑なモデル化を支援する。 Tanhは、単純な線形回帰よりも複雑なパターンをより効果的にモデル化するのに役立つ。 線形回帰の歴史において 人工知能の歴史において 人工知能の歴史における基礎的な要素となっている。
Tanhの主な役割は、重み付けされた入力に基づいてニューロンの出力を決定することである。これは任意の 実数値の入力を[-1, 1]の範囲に変換する。この特性は「ゼロ・センタリング」として知られ、つまり出力値の平均が の間の値を出力するシグモイドのような関数に比べ、出力値の平均はゼロに近い。 1.
ゼロ・センター・データは、以下のような最適化アルゴリズムの効率にとって極めて重要である。 ストキャスティック勾配降下法 確率的勾配降下法(SGD)などの最適化アルゴリズムにとって、ゼロ中心データは非常に重要である。 バックプロパゲーションにおいて、ゼロ中心の活性化 によって、勾配はより自由に正または負の方向に移動することができ、モデルの学習を遅らせる「ジグザグ動作」を防ぐことができます。 これにより、ウェイトの更新が "ジグザグ "になり、モデルの学習が遅くなります。 これらのダイナミクスをより深く掘り下げるには スタンフォード大学のCS231nノートに をご参照ください。
Tanh関数は最新のフレームワークですぐに利用できる。以下は PyTorchを使った実行可能な例です。 がどのように[-1, 1]の範囲にマッピングされるかを示すPyTorchを使った実行可能な例です。
import torch
import torch.nn as nn
# Initialize the Tanh activation function
tanh = nn.Tanh()
# Create a sample tensor with negative, zero, and positive values
input_data = torch.tensor([-2.0, -0.5, 0.0, 0.5, 2.0])
# Apply Tanh: Values are squashed between -1 and 1
output = tanh(input_data)
print(f"Output: {output}")
# Output: tensor([-0.9640, -0.4621, 0.0000, 0.4621, 0.9640])
Tanhをいつ使うかを理解するには、用語集にある他の一般的な活性化関数と区別する必要がある。 用語集にある
ReLUの台頭にもかかわらず、Tanhは依然として特定のアーキテクチャやタスクに不可欠である。
Tanhは歴史的にリカレント・ニューラル・ネットワーク(RNN)の標準的な活性化関数であった。 リカレント・ニューラル・ネットワーク(RNN)や Long Short-Term Memory (LSTM)ネットワークの標準的な活性化関数であった。 また 自然言語処理(NLP) 機械翻訳やテキスト生成のような のような自然言語処理(NLP)タスクにおいて、Tanhはネットワークのメモリセルを通過する情報の流れを制御し、値が時間経過とともに爆発しないようにする。 が爆発しないようにする。
生成逆数ネットワーク 生成逆数ネットワーク(GAN)では、生成モデルの最終層でTanhが頻繁に使用される。これは、生成された 画像の出力画素値を [-1, 1] の正規化された範囲にスケーリングする。 に対して敵対的な学習プロセスを安定させるのに役立つ。このアーキテクチャは DCGAN論文で見ることができる。
単純なセンチメント分析モデルでは、Tanh は、センチメントスコアを連続体に直接マッピングする出力活性化として機能する。 は非常に否定的な感情を表し、0 は中立、+1 は非常に肯定的です。この直感的なマッピングにより、モデル この直感的なマッピングにより、Kaggle のようなデータセットでのモデル予測の解釈が容易になる。
最先端のコンピュータ・ビジョン・モデル のような YOLO11のような最先端のコンピュータ・ビジョン・モデルは、特徴抽出のための Tanhは、ディープラーニング・エンジニアのツールキットにおいて、特にゼロ中心出力を必要とするタスクにおいて、重要なツールであり続けている。 特に、束縛されたゼロ中心出力を必要とするタスクでは、Tanhはディープラーニングエンジニアにとって重要なツールである。


