探索 Leaky ReLU 激活函数在 AI 和 ML 中的强大功能。解决 ReLU 死亡问题,并提高 CV、NLP、GAN 等领域的模型性能!
Leaky Rectified Linear Unit(Leaky ReLU)是一种激活函数,应用于神经网络(NN),是对标准Rectified Linear Unit(ReLU)函数的直接改进。它的设计目的是解决“ReLU 死亡”问题,即神经元在训练过程中可能变得不活跃并停止学习。通过为负输入值引入一个小的非零斜率,Leaky ReLU 确保神经元始终具有梯度,从而在深度学习(DL)模型中实现更稳定和一致的训练。这种简单的修改已被证明在各种架构中有效,有助于提高模型性能和训练动态。
Leaky ReLU 背后的主要动机是解决神经元死亡问题。在标准 ReLU 函数中,神经元的任何负输入都会导致输出为零。如果一个神经元持续接收负输入,它将始终输出零。因此,在反向传播期间流经该神经元的梯度也将为零。这意味着神经元的权重不再更新,并且它实际上停止参与学习过程——它“死亡”。
Leaky ReLU 通过在单元不活跃时允许一个小的正梯度来解决这个问题。对于负输入,它不是输出零,而是输出一个乘以小常数(“leak”)的值。这确保了神经元永远不会有零梯度,使其能够恢复并继续学习。这种方法最初在关于卷积网络中 Rectified 激活的实证评估的论文中详细说明。
Leaky ReLU 促进更稳定训练的能力使其在人工智能(AI)的多个领域中具有价值。
Leaky ReLU 是旨在改进原始 ReLU 的几种激活函数之一。了解它与其他激活函数的关系有助于为给定任务选择合适的函数。
激活函数的最佳选择通常取决于特定的架构、数据集(例如 Ultralytics 数据集 上提供的那些数据集)以及 超参数调整 的结果。Leaky ReLU 仍然是一个强大的选择,因为它简单、计算开销低且在防止神经元死亡方面有效。
主要的深度学习框架(如PyTorch和TensorFlow)提供了简单的实现,如其官方文档中PyTorch 的 LeakyReLU和TensorFlow 的 LeakyReLU所示。这种可访问性使开发人员可以使用Ultralytics HUB等平台轻松地进行实验并将其集成到他们的模型中。