遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Vanishing Gradient

了解梯度消失问题如何影响深度学习,并探索在 Ultralytics YOLO26 中使用的 ReLU 和残差连接等有效解决方案。

梯度消失问题是训练深度人工神经网络时遇到的一个重大挑战。当梯度(决定网络参数变化量的数值)从输出层反向传播到输入层时变得极小时,就会出现此问题。由于这些梯度对于更新模型权重至关重要,它们的消失意味着网络的前几层将停止学习。这种现象有效地阻止了模型捕获数据中的复杂模式,限制了深度学习架构的深度和性能。

Link to this section信号消失的机制#

为了理解为什么会发生这种情况,了解反向传播过程会有所帮助。在训练期间,网络使用损失函数计算其预测与实际目标之间的误差。然后,该误差会被传回各层以调整权重。这种调整依赖于微积分的链式法则,其中包括逐层相乘激活函数的导数。

如果网络使用诸如sigmoid函数或双曲正切(tanh)之类的激活函数,其导数通常小于 1。当在拥有数十或数百层的深层网络中将许多这样的小数相乘时,结果就会趋近于零。你可以将其想象成“传话”游戏,一条信息被悄声传给长长的一排人;当它到达队伍开头时,信息已经变得听不清了,第一个人根本不知道该说什么。

Link to this section解决方案与现代架构#

人工智能领域已经开发出几种强健的策略来缓解梯度消失问题,从而能够创建像Ultralytics YOLO26这样强大的模型。

  • ReLU 及其变体:线性整流函数 (ReLU) 及其后续版本,例如 Leaky ReLU 和 SiLU,在正值时不会饱和。它们的导数要么是 1,要么是一个小常数,从而在深层中保留了梯度的大小。
  • **残差连接:**在残差网络 (ResNets) 中引入,这些是允许梯度绕过一层或多层的“跳跃连接”。这为梯度畅通无阻地流向较早的层创建了一条“高速公路”,这是现代目标检测中的一个基本概念。
  • **批量归一化:**通过对每一层的输入进行归一化,批量归一化确保网络在稳定的状态下运行,此时导数不会过小,从而减少了对仔细初始化的依赖。
  • **门控架构:**对于序列数据,长短期记忆 (LSTM) 网络和 GRU 使用专门的门来决定保留或遗忘多少信息,有效地屏蔽了梯度在长序列中消失的风险。

Link to this section梯度消失与梯度爆炸#

虽然它们源于相同的底层机制(重复乘法),但梯度消失与梯度爆炸是不同的。

  • **梯度消失:**梯度趋近于零,导致学习停止。这在具有 sigmoid 激活函数的深层网络中很常见。
  • **梯度爆炸:**梯度累积变得过大,导致模型权重剧烈波动或达到 NaN(非数值)。这通常通过梯度裁剪来解决。

Link to this section实际应用#

克服梯度消失已成为现代人工智能应用成功的先决条件。

  1. Deep Object Detection: Models used for autonomous vehicles, such as the YOLO series, require hundreds of layers to differentiate between pedestrians, signs, and vehicles. Without solutions like residual blocks and batch normalization, training these deep networks on massive datasets like COCO would be impossible. Tools like the Ultralytics Platform help streamline this training process, ensuring these complex architectures converge correctly.

  2. **机器翻译:**在自然语言处理 (NLP) 中,翻译长句子需要理解第一个词和最后一个词之间的关系。解决 RNN(通过 LSTM)以及后来的 Transformer 中的梯度消失问题,使模型能够保持长段落的上下文,从而彻底改变了像 Google 翻译这样的机器翻译服务。

Link to this sectionPython 示例#

现代框架和模型抽象了许多这些复杂性。当你训练像 YOLO26 这样的模型时,该架构会自动包含 SiLU 激活和批量归一化等组件,以防止梯度消失。

from ultralytics import YOLO

# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")

# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅