敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

标签平滑

通过标签平滑增强 AI 模型的准确性和鲁棒性——一种经过验证的能够提高泛化能力并减少过度自信的技术。

标签平滑 (Label Smoothing) 是一种正则化技术,用于机器学习模型训练期间,尤其是在分类任务中。它通过防止模型将完整的 1.0 概率分配给正确的类别来解决模型过度自信的问题。标签平滑不是使用“硬”标签(其中正确的类别为 1,所有其他类别为 0),而是创建“软”标签,将一小部分概率质量分配给其他类别。这鼓励模型减少对其预测的确定性,从而可以更好地泛化并提高对未见数据的性能。该技术已在高性能模型中得到显著应用,并在《标签平滑何时有帮助?》等论文中进行了详细说明。

标签平滑的工作原理

在一个典型的监督学习分类问题中,训练数据由输入及其对应的正确标签组成。例如,在图像分类任务中,一张猫的图片会有一个标签“猫”,表示为一个 one-hot 编码向量,例如对于 [猫, 狗, 鸟] 这些类别。在计算损失函数时,模型会根据其预测结果与这个硬目标之间的差距受到惩罚。

标签平滑会修改此目标。它略微降低了正确类别的目标概率(例如,降至 0.9),并将剩余的小概率(在本例中为 0.1)均匀地分配给不正确的类别。因此,新的“软”目标可能看起来像 [0.9, 0.05, 0.05]。这种小小的变化会阻止神经网络的最终 Logit 层为一类生成极大的值,这有助于防止过拟合。此过程可以在使用 Ultralytics HUB 等平台进行模型训练期间进行管理。

标签平滑的优势

标签平滑的主要优点是它可以提高模型的校准度。良好校准的模型的预测置信度得分能够更准确地反映正确性的真实概率。这对于理解模型确定性非常重要的应用至关重要,例如医学图像分析。通过防止过度自信,它还可以提高模型泛化到新数据的能力,这是任何机器学习项目的关键目标。这通常会略微提高准确性。更好的泛化能力可以为实时推理和最终模型部署带来更强大的模型。

实际应用

标签平滑是一种简单而有效的技术,已应用于各种最先进的模型中。

  1. 大规模图像分类: 经过训练用于在大型数据集(如ImageNet)上执行图像分类任务的模型(如Ultralytics YOLO)通常使用标签平滑。这些数据集有时可能包含来自数据标注过程的噪声或不正确的标签。标签平滑使模型对这种标签噪声更具鲁棒性,防止它学习对可能错误的标签过于自信。您可以为您的项目探索各种分类数据集
  2. 自然语言处理 (NLP): 在诸如机器翻译等任务中,对于单个短语可能存在多个有效的翻译。标签平滑(Label Smoothing)应用于诸如 Transformer 等模型中,阻止模型为词汇表中单个正确的词分配 1.0 的概率,因为它承认其他词也可能适用。这个概念是现代 NLP 的基础,可以在 斯坦福 NLP 组等机构的资源中找到相关讨论。

标签平滑与相关概念

区分标签平滑与其他正则化技术非常重要。

  • 硬标签: 这是使用绝对确定性(正确类别的 100%)训练模型的标准方法。标签平滑是它的直接替代方案。
  • 数据增强: 这是另一种正则化技术,它通过对现有数据应用转换来创建新的训练示例。 它增加了数据集的多样性,而标签平滑则修改了目标值本身。 您可以在 Ultralytics 文档中找到 YOLO 数据增强指南
  • Dropout: 此方法在每个训练步骤中随机停用一部分神经元,以防止复杂的协同适应。它在训练期间修改模型的架构,而标签平滑则修改损失计算。有关 dropout 的更深入探讨,请参见 GeeksforGeeks 上关于该主题的文章
  • 知识蒸馏: 在这种技术中,使用较大的预训练“教师”模型生成的软标签来训练较小的“学生”模型。虽然它也使用软标签,但这些标签的来源是另一个模型的预测,而不是像标签平滑那样应用于真实标签的简单启发式方法。最初的Distilling the Knowledge in a Neural Network paper提供了对这一概念的基础理解。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板