深圳Yolo 视觉
深圳
立即加入
词汇表

标签平滑

通过标签平滑增强 AI 模型的准确性和鲁棒性——一种经过验证的能够提高泛化能力并减少过度自信的技术。

标签平滑是一种正则化技术,用于机器学习模型的训练,以防止神经网络对其预测过于自信。 神经网络对其预测过于自信。通过稍微修改目标标签,这种方法 鼓励模型产生不那么极端的概率分布,从而最终实现更好的 泛化,并提高在未见数据上的性能。它能有效缓解常见的 过拟合,即模型记忆训练数据,而不是学习底层数据。 训练数据,而不是学习 这种情况下,模型会记忆训练数据,而不是学习在真实世界场景中进行准确预测所需的基本模式。

标签平滑机制

在标准的监督学习任务中,例如 图像分类等标准监督学习任务中,模型通常使用 "硬 "目标进行训练。这些目标是单击编码 向量,其中正确类别的概率为 1.0(100%),而所有错误类别的概率均为 0.0。 虽然这看起来很直观,但它迫使 损失函数--通常是交叉熵损失--来驱动对数层的输出 的输出达到无穷大,以 达到精确的 1.0。这种行为会导致模型过于自信,即使是在错误的情况下也是如此。 降低了模型适应新输入的能力。

标签平滑将这些硬目标替换为 "软 "目标。该技术不是将地面实况值定为 1.0,而是将其定为稍低的值,如 0.9。 该技术赋予一个稍低的值,如 0.9。剩余的概率质量(如 0.1)会均匀地分布在不正确的类别中。 在错误类别中均匀分布。这种微妙的变化可以防止 激活函数(通常为 Softmax 达到饱和。更深入的理论理解 研究论文"反思计算机视觉的初始架构"提供了有关这一机制如何稳定训练的基础性见解。

利用Ultralytics实施标签平滑处理

现代计算机视觉框架可以直接应用这种技术。在使用 Ultralytics YOLO11 模型时,可以直接在训练参数中启用标签平滑化 直接在训练参数中启用。这对于 数据集可能包含模糊性的分类任务

下面的示例演示了如何应用标签平滑技术训练模型:

from ultralytics import YOLO

# Load the YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on a dataset with label smoothing set to 0.1
# This distributes 10% of the probability mass to incorrect classes
model.train(data="mnist", epochs=5, label_smoothing=0.1)

模型校准和稳健性方面的优势

标签平滑化的主要优势之一是可以改进 模型校准。一个校准良好的模型 产生的预测概率基本上反映了正确性的真实可能性。例如,如果一个模型 预测一个类别的置信度为 70%,那么它在 70% 的情况下应该是正确的。 在 70% 的情况下是正确的。硬标签通常会导致未经校准的模型预测出 99% 的置信度,而与实际的不确定性无关。 实际的不确定性。

此外,标签平滑处理还能提高对 噪声数据的鲁棒性。在海量数据集中,如 ImageNet中,有些标签可能是不正确或模糊的。通过 不强迫模型收敛到精确的 1.0,网络就能更宽容地对待偶尔出现的错误标注示例,从而防止神经网络在识别图像时出现错误。 例子,从而防止神经网络 深入学习错误的模式。

实际应用

这种正则化策略被广泛应用于人工智能的各个领域 人工智能领域广泛采用,以提高 可靠性。

  • 医学影像分析:在医疗人工智能解决方案中 在医疗人工智能解决方案中,不确定性是 固有的。一次扫描可能会显示出肿瘤的一些不确定特征。标签平滑有助于 医疗图像分析模型避免做出 危险的假阳性预测,通过提供更细微的概率分数而不是二元确定性来协助放射科医生。 分数,而不是二元确定性,从而为放射科医生提供帮助。
  • 自然语言处理 (NLP):机器翻译等任务中 机器翻译等任务中,多个单词往往可以 作为单个源词的有效翻译。标签平滑处理可避免模型将有效同义词的概率设为零,从而避免这种模糊性。 模型不会给有效的同义词分配零概率,这一概念在 转换器大型语言模型

与相关概念的比较

将标签平滑与其他用于提高模型性能的技术区分开来是很有帮助的。

  • 与数据增强相比:数据增强则是修改输入数据 (例如旋转或翻转图像)以增加多样性,而标签平滑处理则是修改目标标签。两者 可同时用于训练鲁棒模型,如 YOLO26 这样的稳健模型。
  • 知识蒸馏知识提炼:在知识提炼中,学生模型 从教师模型的 "软 "预测中学习。与标签平滑不同的是,软目标是统一的和启发式的。 不同,"知识蒸馏 "使用的是学习到的概率,其中包含了类与类之间关系的信息。 例如,"狗 "比 "车 "更像 "猫")。
  • 对辍学者:神经元 在训练过程中随机停用神经元 以防止共同适应。这动态地改变了网络结构,而标签平滑则改变了优化目标。 优化目标。有关剔除的更多详情,请参阅本 机器学习研究》杂志的论文中。

通过将标签平滑整合到训练管道中,可以确保模型保持适应性和校准性,而这对成功训练模型至关重要。 校准,这对成功 模型在生产 环境中成功部署模型的关键。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入