敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

正则化

使用 L1、L2、dropout 和提前停止等正则化技术,防止过拟合并提高模型泛化能力。了解更多!

正则化是 机器学习 (ML) 中使用的一组技术,用于防止一个常见的问题,即 过拟合。当模型过拟合时,它会过度学习训练数据,包括其中的噪声和随机波动,这会对它泛化并对新的、未见过的数据做出准确预测的能力产生负面影响。正则化的工作原理是在 损失函数 中增加对模型复杂性的惩罚,从而阻止模型学习过于复杂的模式。这有助于创建一个更简单、更通用的模型,从而在训练和 验证数据 上表现更好。

常用正则化技术

有几种广泛使用的正则化技术,有助于提高模型性能和鲁棒性:

  • L1 和 L2 正则化:这些是最常见的正则化形式。它们根据模型权重的幅度向损失函数添加一个惩罚项。L1 正则化(Lasso)倾向于将不太重要的特征权重缩小到完全为零,从而有效地执行特征选择。L2 正则化(岭回归或权重衰减)强制权重变小,但很少为零。有关数学差异的更深入探讨,请参见斯坦福 CS229 课程笔记等资源。
  • Dropout层:此技术特定于神经网络。在训练期间,它在每个更新步骤中随机将一部分神经元激活设置为零。这可以防止神经元过度协同适应,并迫使网络学习更强大的特征。这个概念在一篇极具影响力的研究论文中被提出。
  • 数据增强:通过人为地扩大训练数据的大小和多样性,数据增强有助于模型更好地适应微小的变化。常见的技术包括旋转、裁剪、缩放和移动图像中的颜色。Ultralytics提供内置的YOLO数据增强方法,以提高模型的鲁棒性。
  • 提前停止:这是一种实用的方法,在训练期间监控模型在验证集上的性能。当验证性能停止提高时,训练过程就会停止,从而防止模型在后面的epochs中开始过度拟合。PyTorch 文档中提供了关于实现提前停止的实用指南。

实际应用

正则化是开发跨各个领域的有效 深度学习 (DL) 模型的基础。

  1. 计算机视觉:目标检测模型(如 Ultralytics YOLO)中,正则化对于从 COCO 等数据集泛化到实际应用至关重要。例如,在汽车解决方案人工智能中,L2 正则化和 dropout 有助于交通标志检测器在不同的光照和天气条件下可靠地工作,防止其记住训练期间看到的特定示例。
  2. 自然语言处理 (NLP): 大型语言模型 (LLM)由于其大量的参数而容易过度拟合。在诸如机器翻译之类的应用中,dropout在Transformer架构中使用,以确保模型学习语法规则和语义关系,而不仅仅是记住其训练数据中的特定句子对。

正则化与其他概念的比较

区分正则化与机器学习中其他相关概念非常重要:

  • 正则化与 归一化 归一化是一种数据预处理技术,可将输入特征缩放到标准范围(例如,0 到 1)。它确保没有单个特征因其规模而主导学习过程。相反,正则化是一种在训练期间约束模型复杂性以防止过拟合的技术。虽然两者都可以提高模型性能,但归一化侧重于数据,而正则化侧重于模型本身。批量归一化是一种逐层归一化技术,它也提供轻微的正则化效果。
  • 正则化与 超参数调整 正则化技术有其自身的超参数,例如 L1/L2 中的正则化强度(lambda)或 dropout 率。超参数调整是找到这些设置的最佳值的过程,通常使用诸如 Ultralytics Tuner 类之类的工具自动完成。简而言之,您可以使用超参数调整来找到应用正则化的最佳方法。诸如 Ultralytics HUB之类的平台可以帮助管理此过程所需的实验。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板