深圳Yolo 视觉
深圳
立即加入
词汇表

标签平滑

了解标签平滑如何防止过拟合并提高模型泛化能力。探索如何使用Ultralytics YOLO26实现此技术以获得更好的结果。

标签平滑是一种在机器学习中广泛使用的正则化技术,旨在提高模型泛化能力并防止过拟合。在训练神经网络时,目标通常是最小化预测与真实值之间的误差。然而,如果模型对其预测过于自信——将近100%的概率分配给单一类别——它往往会开始记忆训练数据中的特定噪声,而不是学习鲁棒的模式。这种现象被称为过拟合,会降低模型在新、未见过示例上的性能。标签平滑通过阻止模型以绝对确定性进行预测来解决这个问题,本质上是告诉网络总会存在一个小的误差范围。

软目标的机制

为了理解标签平滑的工作原理,将其与标准“硬”目标进行对比会有所帮助。在传统 监督学习,分类标签通常通过以下方式表示: 独热编码。例如,在 区分猫和狗的任务中,一张“狗”的图像的目标向量将是 [0, 1]。为了完美匹配这一点,模型会输出其内部得分,称为 logits,趋于无穷,这可能导致 梯度不稳定,并使其无法适应。

标签平滑用“软”目标取代了这些僵硬的1和0。而不是目标概率为 1.0,正确的类别可能被分配 0.9,而剩余的概率质量 (0.1)均匀分布在不正确的类别上。这种细微的转变改变了 损失函数,例如 交叉熵,防止 激活函数 (通常 Softmax)饱和。结果是模型在特征空间中学习到更紧密的类别簇,并产生更好的 模型校准,这意味着预测的概率更准确地反映了正确性的真实可能性。

实际应用

这种技术在数据模糊性固有或数据集容易出现标注错误的领域尤为关键。

  • 医疗诊断:医疗AI领域,临床数据很少是非黑即白的。例如,在 医学图像分析中,扫描结果可能显示出高度提示疾病的特征,但并非确诊。使用硬标签进行训练会迫使模型忽略这种不确定性。通过应用标签平滑,模型能够保持一定程度的怀疑,这对于过度自信可能导致误诊的决策支持系统至关重要。
  • 大规模图像分类:ImageNet这样的大型公共数据集通常包含错误标记的图像或包含多个有效对象的图像。如果模型试图以100%的置信度拟合这些有噪声的样本,它会学习到不正确的关联。标签平滑作为对抗标签噪声的缓冲,确保少数不良数据点不会大幅度扭曲最终的模型权重

利用Ultralytics实施标签平滑处理

现代深度学习框架简化了这项技术的应用。使用 ultralytics 包,您可以轻松地将标签平滑集成到您的训练管线中,用于 图像分类 或detect任务。这通常是为了从最先进的模型中榨取额外性能,例如 YOLO26.

以下示例演示了如何训练启用标签平滑的分类模型:

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Train with label_smoothing set to 0.1
# The target for the correct class becomes 1.0 - 0.5 * 0.1 = 0.95 (depending on implementation specifics)
model.train(data="mnist", epochs=5, label_smoothing=0.1)

与相关概念的比较

区分标签平滑与其他正则化策略有助于理解其适用场景。

  • 与 Dropout 对比: Dropout 层 在训练期间随机停用神经元,以迫使网络学习冗余表示。尽管两者都能防止过拟合,但 Dropout 动态修改网络架构,而标签平滑则修改优化目标(即标签本身)。
  • 与知识蒸馏对比: 两种技术都涉及在软目标上进行训练。然而,在 知识蒸馏 中,软目标来自“教师”模型,并包含学习到的信息(例如,“这看起来有10%像猫”)。相比之下,标签平滑使用数学推导出的“无信息”软目标(例如,“将10%的概率平均分配给所有其他类别”)。
  • 与数据增强对比: 数据增强 策略通过改变输入数据(旋转、裁剪、着色)来增加多样性。标签平滑则改变输出预期。Ultralytics Platform 上的综合训练工作流通常结合数据增强、Dropout 和标签平滑,以实现最大精度。

通过缓解最终层中的梯度消失问题并鼓励模型学习更鲁棒的特征,标签平滑仍然是现代深度学习架构中的一个重要组成部分。

让我们一起共建AI的未来!

开启您的机器学习未来之旅