术语表

Tanh(双曲正切)

探索神经网络中 Tanh 激活函数的强大功能。了解它如何使人工智能以零中心效率为复杂数据建模!

Tanh(双曲切线)是神经网络中广泛使用的激活函数。它是一个数学函数,能将输入值压缩到-1 和 1 之间。它的主要特点是输出以零为中心,即负输入映射到负输出,正输入映射到正输出。这一特性有助于在模型训练过程中加快梯度下降优化算法的收敛速度。

Tanh 如何工作

深度学习模型中,激活函数通过计算加权和并进一步添加偏置来决定是否激活一个神经元。Tanh 函数采用任意实数值,并将其映射到[-1, 1]范围内。大的正值被映射为接近 1 的值,大的负值被映射为接近-1 的值,而接近零的值则被映射为零值附近的值。这种以零为中心的特性具有很大的优势,因为它有助于保持各层的输出不会向一个方向过度偏移,从而使训练更加稳定。如需深入的技术解释,斯坦福大学等机构提供了有关激活函数的详细课程说明。

与其他激活功能的比较

Tanh 经常与其他激活函数进行比较,它们各有优缺点:

  • Tanh 与 Sigmoid两个函数都具有相似的 S 形。不过,Sigmoid 函数的输出值在一定范围内,而 Tanh 函数的输出值在[-1, 1]范围内。由于 Tanh 的输出是以零为中心的,因此在网络的隐藏层中,它往往比 Sigmoid 更受青睐,因为它往往会导致更快的收敛。
  • Tanh 与 ReLU ReLU及其变体,如Leaky ReLUSiLU,已成为许多现代计算机视觉架构的默认选择。与 Tanh 不同,ReLU 的计算成本并不高,而且有助于缓解梯度消失问题,即在反向传播过程中梯度变得极小。不过,在需要有界输出的特定情况下,Tanh 仍然很有价值。你可以在Ultralytics YOLO11 等模型中看到现代激活函数的应用。

人工智能和机器学习中的应用

Tanh 在历史上一直很受欢迎,尤其是在以下地区:

  • 递归神经网络 (RNN):Tanh 常用于 RNN 和长短时记忆(LSTM)网络等变体的隐藏状态,尤其适用于自然语言处理(NLP)任务。它的边界范围有助于调节递归连接内的信息流。更多详情,请参阅了解 LSTM
  • 情感分析在较早的 NLP 模型中,Tanh 帮助将从文本中提取的特征(例如,由 RNN 处理的单词嵌入)映射到一个连续的范围,代表从负面(-1)到正面(+1)的情感极性。您可以在 Kaggle 等平台上找到相关的情感分析数据集
  • 控制系统与机器人学强化学习(RL)中,Tanh 有时被用作输出特定范围内连续动作的策略的最终激活函数(例如,在-1 和+1 之间控制电机扭矩)。Gymnasium(前身为 OpenAI Gym)等框架经常用于 RL 研究。
  • 隐藏层:可用于前馈网络的隐藏层,但 ReLU 变体现在更为常见。当零心特性对特定问题或架构特别有利时,可能会选择它。您可以在我们的模型比较页面中探索不同架构的性能。

虽然Ultralytics YOLO等现代架构通常利用 SiLU 等函数来完成物体检测等任务,但了解 Tanh 仍然很有价值。它为激活函数的演化提供了背景,而且可能仍然会出现在特定的网络设计或传统系统中。PyTorchTensorFlow等框架提供了 Tanh 的标准实现。您可以使用Ultralytics HUB 等平台训练和实验不同的激活函数。Papers with Code网站也列出了利用 Tanh 进行的研究。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板