探索神经网络中 Tanh 激活函数的强大功能。了解它如何使 AI 能够以零为中心的效率对复杂数据进行建模!
Tanh(双曲正切)是神经网络中广泛使用的激活函数。它是一种数学函数,可以将输入值压缩到-1和1之间的范围内。从视觉上看,它产生一个“S”形曲线,类似于Sigmoid函数。它的关键特性是其输出以零为中心,这意味着负输入映射到负输出,正输入映射到正输出。此属性有助于加速优化算法(如梯度下降)在模型训练过程中的收敛。
在深度学习模型中,激活函数通过计算加权和并进一步添加偏差来决定是否应激活神经元。Tanh 函数接受任何实数值的数字,并将其映射到范围 [-1, 1]。大的正值映射到接近 1,大的负值映射到接近 -1,接近零的值映射到零附近的值。这种以零为中心的性质是一个显着的优势,因为它有助于防止图层的输出在一个方向上移动太远,这可以使训练更稳定。对于深入的技术解释,来自 Stanford 等机构的资源提供了关于激活函数的详细课程笔记。
Tanh经常与其他激活函数进行比较,每种激活函数都有其自身的优点和缺点:
Tanh 在历史上一直是一个受欢迎的选择,尤其是在:
虽然像 Ultralytics YOLO 这样的现代架构通常利用 SiLU 等函数来执行目标检测等任务,但理解 Tanh 仍然很有价值。它为激活函数的演变提供了背景,并且可能仍然出现在特定的网络设计或遗留系统中。PyTorch 和 TensorFlow 等框架提供了 Tanh 的标准实现。您可以使用 Ultralytics HUB 等平台来训练和试验不同的激活函数。Papers with Code 网站还列出了利用 Tanh 的研究。