深圳Yolo 视觉
深圳
立即加入
词汇表

梯度消失

探索深度学习中的梯度消失问题,它对神经网络的影响,以及 ReLU、ResNet 等有效解决方案。

梯度消失问题是深度学习训练过程中遇到的一个重大挑战。 训练深度 神经网络时遇到的重大挑战。当梯度 是用于更新网络权重的信号。 权重 从输出层传播回初始层时,梯度变得非常小。 从输出层传播回初始层。当梯度趋近于零时,初始层的权重就无法有效更新。 初始层的权重无法有效更新。这将使这些层的学习过程停滞,从而阻止 深度学习模型无法收敛到最佳 解决方案。

什么导致梯度消失?

梯度消失的主要原因在于某些激活函数的性质和深度。 激活函数的性质和网络本身的深度 网络本身的深度。

  • 激活函数:传统的激活函数,如 双曲正切(tanh 双曲正切(tanh)函数 将输入挤压到很小的输出范围内。这些函数的导数总是很小。在 在反向传播过程中,这些小导数会在许多层中相乘。网络层数越多 网络的层数越多,这些小数的乘积就越多,从而导致梯度呈指数级缩小。
  • 深度架构:这一问题在深度网络中尤为突出,包括早期的 递归神经网络 (RNN)、 其中,梯度是通过许多时间步回传播的。每一步都涉及网络的 权重相乘,这会在长时间序列中减弱梯度信号。

梯度消失 vs. 梯度爆炸

消失的梯度与 爆炸梯度。这两个问题都与 训练过程中的梯度流动,但它们的影响不同:

  • 消失的梯度梯度呈指数级缩小,直到小到无法在网络早期层进行任何有意义的学习。 在网络的早期层进行有意义的学习。
  • 爆炸渐变:梯度不可控制地变大,导致大量权重更新,从而使模型变得不稳定,无法收敛。 导致模型不稳定,无法收敛。

解决这两个问题对于成功训练深度和强大的 人工智能模型至关重要。

解决方案与缓解策略

已经开发了几种技术来解决梯度消失问题:

  • 更好的激活函数用以下函数取代 sigmoid 和 tanh 函数 整流线性单元(ReLU)或其 变体(Leaky ReLUGELU)是一种常见的解决方案。对于 对于正输入,ReLU 的导数为 1,这可以防止梯度缩小。
  • 先进的架构:现代架构设计专门用于缓解这一问题。 残差网络(ResNets)引入了 "跳过连接",让梯度绕过各层,在反向传播过程中提供更短的路径。 反向传播。对于顺序数据 长短期记忆(LSTM)门控递归单元(GRU)网络使用 门控机制来控制信息流和梯度,这在最初的 LSTM 论文中有详细介绍。
  • 权重初始化:使用 He 或 Xavier 初始化等方法对网络权重进行适当的初始化 泽维尔初始化等方法,有助于确保 梯度在合理范围内启动。
  • 批量标准化:应用 批量归一化:应用批量归一化可以归一化每层的输入 这可以稳定网络并减少对初始化的依赖,从而缓解梯度消失问题。 梯度消失问题。

Ultralytics YOLO11 等现代深度学习框架和模型在构建时就将这些解决方案集成到了 架构中。无需手动配置,您就可以轻松创建一个利用这些原理的模型。

from ultralytics import YOLO

# Load a model built from a YAML configuration file
# The architecture defined in 'yolo11n.yaml' uses modern components
# like ReLU-based activations and normalization layers to prevent vanishing gradients.
model = YOLO("yolo11n.yaml")

# Train the model with confidence that the architecture is robust against this issue.
# The training process benefits from stable gradient flow.
results = model.train(data="coco128.yaml", epochs=3)

实际影响与案例

克服梯度消失是现代人工智能的一个关键突破。

  1. 计算机视觉人们曾一度认为,只需制造 卷积神经网络 (CNN) 由于梯度消失等训练困难,人们曾一度认为,仅仅提高卷积神经网络(CNN)的深度并不能提高其性能。但 ResNet架构的引入证明了这一观点是错误的,它使网络能够拥有 数百层的网络。这使得 图像分类 图像分割物体检测方面取得了重大进展,为 等模型的基础。 Ultralytics YOLO.训练这些模型通常需要 需要强大的 架构,以确保有效学习。
  2. 自然语言处理 (NLP):早期的 RNN 在机器翻译和长篇 机器翻译和长篇 情感分析等任务中失败,因为它们无法 记住长句子开头的信息。LSTM 的发明使模型能够捕捉这些 长距离依赖关系。最近 Transformer架构利用 自注意来完全绕过顺序梯度问题 问题,从而在几乎所有 NLP 任务中实现了最先进的性能。 NLP任务中一流性能。 斯坦福 NLP 小组等研究小组经常探讨的课题。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入