通过标签平滑增强 AI 模型的准确性和鲁棒性——一种经过验证的能够提高泛化能力并减少过度自信的技术。
标签平滑 (Label Smoothing) 是一种正则化技术,用于机器学习模型训练期间,尤其是在分类任务中。它通过防止模型将完整的 1.0 概率分配给正确的类别来解决模型过度自信的问题。标签平滑不是使用“硬”标签(其中正确的类别为 1,所有其他类别为 0),而是创建“软”标签,将一小部分概率质量分配给其他类别。这鼓励模型减少对其预测的确定性,从而可以更好地泛化并提高对未见数据的性能。该技术已在高性能模型中得到显著应用,并在《标签平滑何时有帮助?》等论文中进行了详细说明。
在一个典型的监督学习分类问题中,训练数据由输入及其对应的正确标签组成。例如,在图像分类任务中,一张猫的图片会有一个标签“猫”,表示为一个 one-hot 编码向量,例如对于 [猫, 狗, 鸟] 这些类别。在计算损失函数时,模型会根据其预测结果与这个硬目标之间的差距受到惩罚。
标签平滑会修改此目标。它略微降低了正确类别的目标概率(例如,降至 0.9),并将剩余的小概率(在本例中为 0.1)均匀地分配给不正确的类别。因此,新的“软”目标可能看起来像 [0.9, 0.05, 0.05]。这种小小的变化会阻止神经网络的最终 Logit 层为一类生成极大的值,这有助于防止过拟合。此过程可以在使用 Ultralytics HUB 等平台进行模型训练期间进行管理。
标签平滑的主要优点是它可以提高模型的校准度。良好校准的模型的预测置信度得分能够更准确地反映正确性的真实概率。这对于理解模型确定性非常重要的应用至关重要,例如医学图像分析。通过防止过度自信,它还可以提高模型泛化到新数据的能力,这是任何机器学习项目的关键目标。这通常会略微提高准确性。更好的泛化能力可以为实时推理和最终模型部署带来更强大的模型。
标签平滑是一种简单而有效的技术,已应用于各种最先进的模型中。
区分标签平滑与其他正则化技术非常重要。