深圳Yolo 视觉
深圳
立即加入
词汇表

学习率

了解学习率如何影响模型训练。探索如何Ultralytics 步长,以在目标检测等领域实现SOTA性能。

学习率是关键的超参数调优配置, 它决定了模型在优化过程中采取的步长。在训练神经网络的场景中, 它控制着模型每次处理一批数据时, 内部权重根据估计误差进行更新的幅度。 可将其类比为行走者从山顶向山谷(即误差最低点)行进的过程:学习率决定了步幅长度。步幅过大可能直接越过山谷而错失谷底;步幅过小则可能耗费过长时间才能抵达目的地。

优化中的"金发姑娘"困境

在机器学习工作流中,寻找最优学习率常被描述为一种平衡行为。其目标是最小化损失函数——该函数衡量模型预测与实际真实值之间的差异。这一过程高度依赖于优化算法(如随机梯度下降法(SGD) Adam )来探索损失函数的景观。

  • 学习率过高:若数值设定过高,模型的权重更新将过于剧烈。 这可能导致"超调"现象——模型无法收敛到解, 反而会剧烈振荡或发散。这种不稳定性有时会引发 梯度爆炸问题,使训练过程彻底失效。
  • 学习率过低:相反,极小的步长能确保模型谨慎地向最小值移动,但可能导致训练过程变得极其缓慢,从而造成欠拟合。模型可能实际陷入局部最优,或需要额外数千个epoch才能学习简单模式,造成计算资源浪费。 研究人员常PyTorch ,以理解不同算法如何与这些参数交互作用。

实际应用

学习率调整的影响在部署计算机视觉任务的各类高风险行业中显而易见。

  1. 自动驾驶系统:自动驾驶车辆的开发过程中,工程师利用海量数据集训练目标检测模型,以识别行人及交通标志。 在 迁移学习 应用于YOLO26等预训练模型时,开发者通常采用远低于初始训练的学习率。这种"微调"确保模型在学习特定驾驶环境(如冰雪路面与沙漠公路)的细微差异时,不会抹去其已具备的通用特征提取能力。
  2. 医学诊断成像: 在医学图像分析中,例如检测MRI扫描中的肿瘤,精度至关重要。过高的学习率会导致模型忽略区分恶性组织与良性组织的细微纹理差异。 从业者常采用"学习率预热"技术,将学习率从零逐步提升至目标值,以稳定训练初期阶段,确保神经网络权重在激进学习开始前稳定下来。更多相关策略可参阅《Google 学习速成指南》

区分相关术语

区分学习率与其他训练参数至关重要,因为它们通常配置在相同的配置文件中,但各自承担不同的功能:

  • 学习率与批量大小:学习率控制着更新的幅度,而批量大小决定了每次更新前处理的训练样本数量。二者存在密切关联——通常在增大批量大小时,必须同步提升学习率以维持训练效率,这一概念在关于大批量训练的论文中已有深入探讨。
  • 学习率与衰减:衰减指一种随时间推移系统性降低学习率的策略调度器可能每30个 epoch 将学习率降低10倍。这有助于模型在训练初期实现概念性飞跃,随后在训练后期通过更小的步长逐步提升精度。此功能Ultralytics Python 的标准特性。

Ultralytics YOLO中设置学习率

使用现代框架时,您可以轻松调整初始学习率(lr0)以及最终的学习率分量(lrf). 以下是一个使用 Ultralytics 平台 兼容客户端用于自定义训练运行。

from ultralytics import YOLO

# Load the YOLO26 model (latest state-of-the-art architecture)
model = YOLO("yolo26n.pt")

# Train the model with a custom initial learning rate
# lr0=0.01 sets the initial rate
# lrf=0.01 sets the final learning rate to (lr0 * lrf)
results = model.train(data="coco8.yaml", epochs=10, lr0=0.01, lrf=0.01)

对于高级用户而言,诸如 LR Finder(由fast.ai推广)等技术可通过运行短暂的试验 epoch 实现最优初始值的自动化发现——该过程将以指数级递增的速率进行,直至损失函数出现发散。掌握此超参数通常是解锁AI项目中SOTA(最先进)性能的关键所在。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入