遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Exploding Gradient

了解梯度爆炸 (Exploding Gradients) 如何影响深度学习,并发现梯度裁剪等已证实的缓解技术,以确保 Ultralytics YOLO26 训练的稳定性。

梯度爆炸发生在训练人工神经网络时,指梯度(用于更新网络权重的数值)累积并变得过大。这种现象通常发生在反向传播过程中,即网络计算误差并进行自我调整以提高准确度的过程。当这些误差信号在深层结构中反复乘积时,它们会呈指数级增长,导致模型权重出现巨大的更新。这种不稳定性会阻止模型收敛,从而破坏学习过程,并经常导致损失函数产生 NaN(非数值)值。

Link to this section不稳定性原理#

要理解梯度为何会爆炸,观察深度学习架构的结构会有所帮助。在深层网络中,例如循环神经网络 (RNNs) 或非常深的卷积神经网络 (CNNs) 中,早期层的梯度是所有后续层项的乘积。如果这些项大于 1.0,重复乘积就会产生滚雪球效应。

这会导致优化器采取过大的步长,从而在误差地形中越过最优解。在使用随机梯度下降 (SGD) 等标准算法对复杂数据进行训练时,这是一个常见的挑战。

Link to this section预防和缓解技术#

现代 AI 开发采用几种标准技术来防止梯度失去控制,从而确保可靠的模型训练

  • 梯度裁剪: 这是最直接的干预措施。它涉及设置一个阈值。如果梯度向量范数超过此阈值,它会被缩减(裁剪)以匹配该限制。这种技术在自然语言处理框架中是标准做法,并允许模型持续稳定地学习。
  • 批归一化: 通过将每一层的输入归一化为均值为零、方差为一,批归一化可以防止数值变得过大或过小。这种结构性改变显著平滑了优化地形。
  • 权重初始化: 合适的初始化策略,例如 Xavier 初始化(或 Glorot 初始化),能够设定初始权重,使得激活值的方差在各层之间保持一致。
  • 残差连接:残差网络 (ResNets) 这样的架构引入了跳跃连接。这些路径允许梯度在网络中流动,而无需经过每一个非线性激活函数,从而减轻了乘法效应。
  • 高级优化器:Adam 优化器 这样的算法为个体参数使用自适应学习率,这比基础的 SGD 能更好地处理不同的梯度规模。

Link to this section梯度爆炸与梯度消失#

梯度爆炸问题通常与其对应问题梯度消失一起讨论。两者都源于反向传播中使用的微积分链式法则,但表现方式截然相反。

  • 梯度爆炸: 梯度变得过大(大于 1.0)。这会导致不稳定的权重更新、数值溢出和发散。通常通过梯度裁剪来解决。
  • 梯度消失: 梯度变得过小(小于 1.0)并趋近于零。这会导致网络的早期层完全停止学习。这通常通过使用像 ReLU 或其变体之类的激活函数来解决。

Link to this section实际应用#

处理梯度大小对于在各行业部署鲁棒的 AI 解决方案至关重要。

  1. 生成式 AI 和语言建模: 训练大型语言模型 (LLMs) 或像 GPT-4 这样的模型需要处理极长的文本序列。如果没有梯度裁剪和层归一化等机制,在数百个时间步长中累积的梯度会立即导致训练失败。稳定的梯度确保模型能够学习复杂的语法结构和上下文。

  2. 高级计算机视觉:目标检测等任务中,像 YOLO26 这样的现代模型利用了具有数百层的深层架构。Ultralytics YOLO26 原生集成了高级归一化和残差块,确保用户可以在像 COCO 这样的大型数据集上进行训练,而无需手动调整梯度阈值。在使用 Ultralytics Platform 进行自动化训练工作流时,这种稳定性至关重要。

Link to this sectionPython 代码示例#

虽然高级库通常会自动处理此问题,但你可以在 PyTorch 的自定义训练循环中显式应用梯度裁剪。这段代码展示了如何在优化器更新权重之前裁剪梯度。

import torch
import torch.nn as nn

# Define a simple model and optimizer
model = nn.Linear(10, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

# Simulate a training step
loss = torch.tensor(100.0, requires_grad=True)  # Simulated high loss
loss.backward()

# Clip gradients in place to a maximum norm of 1.0
# This prevents the weight update from being too drastic
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

# Update weights using the safe, clipped gradients
optimizer.step()

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅