词汇表

标签平滑

通过标签平滑增强 AI 模型的准确性和鲁棒性——一种经过验证的能够提高泛化能力并减少过度自信的技术。

标签平滑 (Label Smoothing) 是一种正则化技术，用于机器学习模型训练期间，尤其是在分类任务中。它通过防止模型将完整的 1.0 概率分配给正确的类别来解决模型过度自信的问题。标签平滑不是使用“硬”标签（其中正确的类别为 1，所有其他类别为 0），而是创建“软”标签，将一小部分概率质量分配给其他类别。这鼓励模型减少对其预测的确定性，从而可以更好地泛化并提高对未见数据的性能。该技术已在高性能模型中得到显著应用，并在《标签平滑何时有帮助？》等论文中进行了详细说明。

标签平滑的工作原理

在一个典型的监督学习分类问题中，训练数据由输入及其对应的正确标签组成。例如，在图像分类任务中，一张猫的图片会有一个标签“猫”，表示为一个 one-hot 编码向量，例如对于 [猫, 狗, 鸟] 这些类别。在计算损失函数时，模型会根据其预测结果与这个硬目标之间的差距受到惩罚。

标签平滑会修改此目标。它略微降低了正确类别的目标概率（例如，降至 0.9），并将剩余的小概率（在本例中为 0.1）均匀地分配给不正确的类别。因此，新的“软”目标可能看起来像 [0.9, 0.05, 0.05]。这种小小的变化会阻止神经网络的最终 Logit 层为一类生成极大的值，这有助于防止过拟合。此过程可以在使用 Ultralytics HUB 等平台进行模型训练期间进行管理。

标签平滑的优势

标签平滑的主要优点是它可以提高模型的校准度。良好校准的模型的预测置信度得分能够更准确地反映正确性的真实概率。这对于理解模型确定性非常重要的应用至关重要，例如医学图像分析。通过防止过度自信，它还可以提高模型泛化到新数据的能力，这是任何机器学习项目的关键目标。这通常会略微提高准确性。更好的泛化能力可以为实时推理和最终模型部署带来更强大的模型。

实际应用

标签平滑是一种简单而有效的技术，已应用于各种最先进的模型中。

大规模图像分类： 经过训练用于在大型数据集（如ImageNet）上执行图像分类任务的模型（如Ultralytics YOLO）通常使用标签平滑。这些数据集有时可能包含来自数据标注过程的噪声或不正确的标签。标签平滑使模型对这种标签噪声更具鲁棒性，防止它学习对可能错误的标签过于自信。您可以为您的项目探索各种分类数据集。
自然语言处理 (NLP)： 在诸如机器翻译等任务中，对于单个短语可能存在多个有效的翻译。标签平滑（Label Smoothing）应用于诸如 Transformer 等模型中，阻止模型为词汇表中单个正确的词分配 1.0 的概率，因为它承认其他词也可能适用。这个概念是现代 NLP 的基础，可以在斯坦福 NLP 组等机构的资源中找到相关讨论。

标签平滑与相关概念

区分标签平滑与其他正则化技术非常重要。

硬标签： 这是使用绝对确定性（正确类别的 100%）训练模型的标准方法。标签平滑是它的直接替代方案。
数据增强: 这是另一种正则化技术，它通过对现有数据应用转换来创建新的训练示例。它增加了数据集的多样性，而标签平滑则修改了目标值本身。您可以在 Ultralytics 文档中找到 YOLO 数据增强指南。
Dropout: 此方法在每个训练步骤中随机停用一部分神经元，以防止复杂的协同适应。它在训练期间修改模型的架构，而标签平滑则修改损失计算。有关 dropout 的更深入探讨，请参见 GeeksforGeeks 上关于该主题的文章。
知识蒸馏: 在这种技术中，使用较大的预训练“教师”模型生成的软标签来训练较小的“学生”模型。虽然它也使用软标签，但这些标签的来源是另一个模型的预测，而不是像标签平滑那样应用于真实标签的简单启发式方法。最初的Distilling the Knowledge in a Neural Network paper提供了对这一概念的基础理解。

标签平滑

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

标签平滑的工作原理

标签平滑的优势

实际应用

标签平滑与相关概念

阅读更多此类别的内容

从比特到量子比特：量子优化如何重塑人工智能

如何训练人工智能模型的初学者快速指南

来自迪拜的真知灼见：2025 年 GDG 中东和北非峰会的主要收获

加入 Ultralytics 社区