术语表

标签平滑

利用标签平滑技术提高人工智能模型的准确性和稳健性--这是一种经过验证的技术,可提高概括性并减少过度自信。

标签平滑是机器学习模型训练过程中使用的一种正则化技术,尤其是在分类任务中。它通过防止模型将 1.0 的全部概率分配给正确类别来解决模型过度自信的问题。标签平滑法不是使用 "硬 "标签(即正确类别为 1,其他类别为 0),而是创建 "软 "标签,将小部分概率分布到其他类别。这就促使模型对其预测不那么确定,从而在未见数据上实现更好的泛化并提高性能。这种技术在高性能模型中得到了广泛应用,在《标签平滑何时有用?

标签平滑的工作原理

在典型的监督学习分类问题中,训练数据由输入和相应的正确标签组成。例如,在图像分类任务中,一幅猫的图像的标签 "猫 "将表示为一个单击编码向量,就像类别[猫、狗、鸟]一样。在计算损失函数时,模型会根据其预测结果与这一硬指标的距离受到惩罚。

标签平滑修改了这一目标。它将正确类别的目标概率略微降低(例如降低到 0.9),并将剩余的小概率(本例中为 0.1)平均分配给不正确的类别。因此,新的 "软 "目标可能看起来像 [0.9,0.05,0.05]。这一微小的变化会阻止神经网络的最后logit 层为一个类别产生极大的值,从而有助于防止过度拟合。在模型训练过程中,可以使用 Ultralytics HUB 等平台对这一过程进行管理。

平滑标签的好处

标签平滑法的主要优点是可以改进模型校准。校准良好的模型预测置信度分数能更准确地反映正确性的真实概率。这对于理解模型的确定性非常重要的应用(如医学图像分析)来说至关重要。通过防止过度置信,还能提高模型对新数据的泛化能力,这是任何机器学习项目的关键目标。这通常会略微提高准确性。更好的泛化能力可为实时推理和最终模型部署带来更强大的模型。

实际应用

标签平滑是一种简单而有效的技术,被应用于各种最先进的模型中。

  1. 大规模图像分类: Ultralytics YOLO等模型在大规模数据集(如ImageNet)上进行图像分类任务训练时,通常会使用标签平滑技术。这些数据集有时会包含数据标记过程中产生的噪声或错误标签。标签平滑使模型对这种标签噪声更加稳健,防止模型对潜在的错误标签过于自信。您可以为您的项目探索各种分类数据集
  2. 自然语言处理 (NLP):机器翻译等任务中,一个短语可能有多种有效翻译。标签平滑(Label Smoothing)用于Transformer 等模型中,它不鼓励模型将词汇表中的单个正确单词的概率定为 1.0,而是承认其他单词也可能是合适的。这一概念是现代NLP的基础,斯坦福 NLP 小组等机构的资源中都对其进行了讨论。

标签平滑与相关概念

必须将标签平滑技术与其他正则化技术区分开来。

  • 硬标签:这是一种标准的方法,即以绝对的确定性(100% 为正确类别)来训练模型。标签平滑法可以直接替代这种方法。
  • 数据增强这是另一种正则化技术,通过对现有数据进行转换来创建新的训练示例。它增加了数据集的多样性,而标签平滑则修改了目标值本身。您可以在 Ultralytics 文档中找到YOLO 数据扩充指南。
  • 停用这种方法会在每个训练步骤中随机停用一部分神经元,以防止出现复杂的共同适应。它在训练过程中修改了模型的架构,而标签平滑则修改了损失计算。GeeksforGeeks 的一篇相关文章深入介绍了这种方法。
  • 知识提炼在这种技术中,一个较小的 "学生 "模型是利用一个较大的、预先训练好的 "教师 "模型所生成的软标签来训练的。虽然它也使用软标签,但这些标签的来源是另一个模型的预测,而不是像标签平滑法那样对地面实况标签进行简单的启发式处理。最初的 "提炼神经网络中的知识"(Distilling the Knowledge in a Neural Network)论文提供了对这一概念的基本理解。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板