发现 Leaky ReLU 激活对人工智能和 ML 的强大作用。解决濒临灭绝的 ReLU 问题,提高 CV、NLP、GAN 等模型的性能!
Leaky Rectified Linear Unit(或 Leaky ReLU)是神经网络(NN)中使用的一种激活函数,是对标准整流线性单元(ReLU)函数的直接改进。它旨在解决 "垂死的 ReLU "问题,即神经元在训练过程中会变得不活跃并停止学习。通过为负输入值引入一个非零的小斜率,Leaky ReLU 可以确保神经元始终保持梯度,从而使深度学习(DL)模型的训练更加稳定和一致。事实证明,这种简单的修改在各种架构中都很有效,有助于提高模型性能和训练动态性。
Leaky ReLU 背后的主要动机是解决垂死神经元问题。在标准ReLU函数中,神经元的任何负输入都会导致输出为零。如果一个神经元持续接收负输入,它的输出将始终为零。因此,在反向传播过程中,流经该神经元的梯度也将为零。这意味着神经元的权重不再更新,它实际上停止参与学习过程--"死亡"。
Leaky ReLU 通过在单元未激活时允许一个小的正梯度来解决这个问题。当输入负值时,它不会输出零,而是输出一个乘以一个小常数("泄漏")的值。这就确保了神经元的梯度永远不会为零,使其能够恢复并继续学习。卷积网络中整流激活的经验评估》一文首次详细介绍了这种方法。
Leaky ReLU 能够促进更稳定的训练,这使它在人工智能(AI)的多个领域中发挥了重要作用。
Leaky ReLU 是为改进原始 ReLU 而设计的多个激活函数之一。了解它与其他函数的关系有助于为特定任务选择合适的函数。
激活函数的最佳选择通常取决于特定的架构、数据集(如Ultralytics Datasets 上的数据集)以及超参数调整的结果。Leaky ReLU 因其简单性、低计算开销和防止神经元死亡的有效性,仍然是一个很好的选择。
PyTorch和TensorFlow等主要深度学习框架都提供了直接的实现方法,如PyTorch 的 LeakyReLU和TensorFlow 的 LeakyReLU 的官方文档所示。这种可访问性使开发人员能够轻松地进行实验,并使用Ultralytics HUB 等平台将其集成到自己的模型中。