通过标签平滑增强 AI 模型的准确性和鲁棒性——一种经过验证的能够提高泛化能力并减少过度自信的技术。
标签平滑是一种正则化技术,用于机器学习模型的训练,以防止神经网络对其预测过于自信。 神经网络对其预测过于自信。通过稍微修改目标标签,这种方法 鼓励模型产生不那么极端的概率分布,从而最终实现更好的 泛化,并提高在未见数据上的性能。它能有效缓解常见的 过拟合,即模型记忆训练数据,而不是学习底层数据。 训练数据,而不是学习 这种情况下,模型会记忆训练数据,而不是学习在真实世界场景中进行准确预测所需的基本模式。
在标准的监督学习任务中,例如 图像分类等标准监督学习任务中,模型通常使用 "硬 "目标进行训练。这些目标是单击编码 向量,其中正确类别的概率为 1.0(100%),而所有错误类别的概率均为 0.0。 虽然这看起来很直观,但它迫使 损失函数--通常是交叉熵损失--来驱动对数层的输出。 层的输出达到无穷大,以 达到精确的 1.0。这种行为会导致模型过于自信,即使是在错误的情况下也是如此。 降低了模型适应新输入的能力。
标签平滑将这些硬目标替换为 "软 "目标。该技术不是将地面实况值定为 1.0,而是将其定为稍低的值,如 0.9。 该技术赋予一个稍低的值,如 0.9。剩余的概率质量(如 0.1)会均匀地分布在不正确的类别中。 在错误类别中均匀分布。这种微妙的变化可以防止 激活函数(通常为 Softmax 达到饱和。更深入的理论理解 研究论文"反思计算机视觉的初始架构"提供了有关这一机制如何稳定训练的基础性见解。
现代计算机视觉框架可以直接应用这种技术。在使用 Ultralytics YOLO11 模型时,可以直接在训练参数中启用标签平滑化 直接在训练参数中启用。这对于 数据集可能包含模糊性的分类任务。
下面的示例演示了如何应用标签平滑技术训练模型:
from ultralytics import YOLO
# Load the YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on a dataset with label smoothing set to 0.1
# This distributes 10% of the probability mass to incorrect classes
model.train(data="mnist", epochs=5, label_smoothing=0.1)
标签平滑化的主要优势之一是可以改进 模型校准。一个校准良好的模型 产生的预测概率基本上反映了正确性的真实可能性。例如,如果一个模型 预测一个类别的置信度为 70%,那么它在 70% 的情况下应该是正确的。 在 70% 的情况下是正确的。硬标签通常会导致未经校准的模型预测出 99% 的置信度,而与实际的不确定性无关。 实际的不确定性。
此外,标签平滑处理还能提高对 噪声数据的鲁棒性。在海量数据集中,如 ImageNet中,有些标签可能是不正确或模糊的。通过 不强迫模型收敛到精确的 1.0,网络就能更宽容地对待偶尔出现的错误标注示例,从而防止神经网络在识别图像时出现错误。 例子,从而防止神经网络 深入学习错误的模式。
这种正则化策略被广泛应用于人工智能的各个领域 人工智能领域广泛采用,以提高 可靠性。
将标签平滑与其他用于提高模型性能的技术区分开来是很有帮助的。
通过将标签平滑整合到训练管道中,可以确保模型保持适应性和校准性,而这对成功训练模型至关重要。 校准,这对成功 模型在生产 环境中成功部署模型的关键。