深圳Yolo 视觉
深圳
立即加入
词汇表

标签平滑

了解标签平滑如何防止过拟合并提升模型泛化能力。探索如何Ultralytics 实现该技术以获得更佳效果。

标签平滑是一种在机器学习中广泛使用的正则化技术,旨在提升模型泛化能力并防止过拟合。训练神经网络时,通常目标是将预测值与真实值之间的误差最小化。 然而,若模型对预测过于自信——将近100%的概率分配给单一类别——它往往开始记忆训练数据中的特定噪声,而非学习稳健模式。 这种被称为过拟合的现象会导致模型在未见过的全新样本上表现退化。标签平滑通过抑制模型绝对确定的预测行为来解决此问题,本质上是向神经网络传递"始终存在微小误差空间"的信号。

软目标的运作机制

要理解标签平滑的运作机制,将其与标准的"硬"目标进行对比会有所帮助。在传统方法中 监督学习分类标签通常通过 one-hot编码例如, 在区分猫和狗的任务中,一张"狗"的图像会具有目标向量 [0, 1]为完美匹配这一需求,模型会推送其内部评分,即所谓的 logits趋向无限,这可能导致 不稳定的梯度和无法适应的情况。

标签平滑将这些刚性的1和0替换为"软"目标。目标概率不再是 1.0正确的类可能会被分配 0.9而剩余的概率质量 (0.1该分布在错误类别中均匀分布。这种微妙的偏移改变了目标函数的 损失函数例如 交叉熵,防止 激活函数 (通常 Softmax防止模型饱和。其结果是模型在特征空间中学习到更紧凑的类聚类,从而产生更优的 模型校准这意味着预测概率更准确地反映了正确答案的真实可能性。

实际应用

该技术在数据存在固有模糊性或数据集易出现标注错误的领域尤为关键。

  • 医疗诊断: 在医疗健康领域的人工智能应用中,临床数据很少是黑白分明的。例如在医学影像分析中,扫描结果可能显示高度提示某种疾病但并非确诊的特征。采用硬标签训练会迫使模型忽略这种不确定性。 通过应用标签平滑技术,模型能保持适度怀疑态度——这对决策支持系统至关重要,过度自信可能导致误诊。
  • 大规模图像分类:诸如ImageNet等海量公共数据集 ImageNet 常包含标注错误的图像或包含多个有效物体的图像。若模型试图以100%置信度拟合这些噪声样本,将导致错误关联的学习。标签平滑机制能缓冲标签噪声,确保少量不良数据点不会严重扭曲最终模型权重

利用Ultralytics实施标签平滑处理

现代深度学习框架简化了该技术的应用。使用 ultralytics 包,您可轻松将标签平滑集成到训练管道中,用于 图像分类 或检测任务。这通常是为了从尖端模型中榨取额外性能,例如 YOLO26.

以下示例演示了如何启用标签平滑来训练分类模型:

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Train with label_smoothing set to 0.1
# The target for the correct class becomes 1.0 - 0.5 * 0.1 = 0.95 (depending on implementation specifics)
model.train(data="mnist", epochs=5, label_smoothing=0.1)

与相关概念的比较

区分标签平滑与其他正则化策略有助于理解何时使用它。

  • vs. Dropout: Dropout层在训练过程中随机禁用神经元, 迫使网络学习冗余表示。虽然两者都能防止过拟合, 但Dropout动态修改网络架构, 而标签平滑则修改优化目标(标签本身)。
  • 与知识蒸馏的对比:两种技术都涉及在软目标上进行训练。然而在知识蒸馏中,软目标来自"教师"模型并包含学习到的信息(例如"这张图片有10%的概率是猫")。 而标签平滑则采用数学推导出的"无信息"软目标(例如"将10%概率均等分配给所有其他类别")。
  • vs. 数据增强: 数据增强策略通过改变输入数据(旋转、裁剪、着色)来增加多样性。标签平滑则改变输出预期。Ultralytics 上的综合训练工作流通常结合增强、dropout和标签平滑技术,以实现最高精度。

通过缓解最终层中的梯度消失问题并促使模型学习更稳健的特征,标签平滑技术始终是现代深度学习架构中的核心组件。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入