深圳尤洛视觉
深圳
立即加入
词汇表

Tanh(双曲正切函数)

探索神经网络中 Tanh 激活函数的强大功能。了解它如何使 AI 能够以零为中心的效率对复杂数据进行建模!

Tanh(双曲正切)是神经网络中广泛使用的激活函数。它是一种数学函数,可以将输入值压缩到-1和1之间的范围内。从视觉上看,它产生一个“S”形曲线,类似于Sigmoid函数。它的关键特性是其输出以零为中心,这意味着负输入映射到负输出,正输入映射到正输出。此属性有助于加速优化算法(如梯度下降)在模型训练过程中的收敛。

Tanh 的工作原理

深度学习模型中,激活函数通过计算加权和并进一步添加偏差来决定是否应激活神经元。Tanh 函数接受任何实数值的数字,并将其映射到范围 [-1, 1]。大的正值映射到接近 1,大的负值映射到接近 -1,接近零的值映射到零附近的值。这种以零为中心的性质是一个显着的优势,因为它有助于防止图层的输出在一个方向上移动太远,这可以使训练更稳定。对于深入的技术解释,来自 Stanford 等机构的资源提供了关于激活函数的详细课程笔记。

与其他激活函数的比较

Tanh经常与其他激活函数进行比较,每种激活函数都有其自身的优点和缺点:

  • Tanh vs. Sigmoid: 这两个函数都具有相似的S形。但是,Sigmoid函数输出范围内的值,而Tanh输出[-1, 1]范围内的值。由于Tanh的输出以零为中心,因此通常在网络的隐藏层中优先选择它,因为它往往会导致更快的收敛。
  • Tanh vs. ReLU: ReLU及其变体,如Leaky ReLUSiLU,已成为许多现代计算机视觉架构中的默认选择。与Tanh不同,ReLU的计算成本不高,并且有助于缓解梯度消失问题,在该问题中,梯度在反向传播期间变得非常小。但是,在需要有界输出的特定上下文中,Tanh仍然很有价值。您可以在Ultralytics YOLO11等模型中看到现代激活函数的用法。

人工智能与机器学习应用

Tanh 在历史上一直是一个受欢迎的选择,尤其是在:

  • 循环神经网络 (RNN): Tanh 通常用于 RNN 的隐藏状态以及 长短期记忆 (LSTM) 网络等变体中,尤其是在 自然语言处理 (NLP) 任务中。其有界范围有助于调节循环连接内的信息流。有关更多详细信息,请参阅 理解 LSTMs
  • 情感分析: 在较旧的 NLP 模型中,Tanh 有助于将从文本中提取的特征(例如,由 RNN 处理的词嵌入)映射到连续范围,表示从负面 (-1) 到正面 (+1) 的情感极性。您可以在 Kaggle 等平台上找到相关的情感分析数据集
  • 控制系统和 机器人技术强化学习 (RL) 中,Tanh 有时用作策略的最终激活函数,该策略输出在特定范围内有界的连续动作(例如,控制 -1 到 +1 之间的电机扭矩)。 像 Gymnasium(以前的 OpenAI Gym)这样的框架通常用于 RL 研究。
  • 隐藏层:它可以在前馈网络的隐藏层中使用,尽管ReLU变体现在更常见。当以零为中心的属性对于特定问题或架构特别有利时,可以选择它。您可以在我们的模型比较页面中探索不同架构的性能。

虽然像 Ultralytics YOLO 这样的现代架构通常利用 SiLU 等函数来执行目标检测等任务,但理解 Tanh 仍然很有价值。它为激活函数的演变提供了背景,并且可能仍然出现在特定的网络设计或遗留系统中。PyTorchTensorFlow 等框架提供了 Tanh 的标准实现。您可以使用 Ultralytics HUB 等平台来训练和试验不同的激活函数。Papers with Code 网站还列出了利用 Tanh 的研究。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板