深圳Yolo 视觉
深圳
立即加入
词汇表

数据集偏差

探讨AI中数据集偏差的成因,并学习如何减轻这种偏差。了解如何使用Ultralytics Platform和Ultralytics YOLO26来提高公平性。

数据集偏差是指用于训练 机器学习 (ML) 模型的信息包含系统性错误或倾斜分布,导致最终的 AI 系统偏向某些结果而非其他结果。由于模型作为模式识别引擎运行,它们完全依赖于其输入;如果 训练数据 不能准确反映真实世界的环境多样性,模型将继承这些盲点。这种现象通常会导致泛化能力差,即 AI 在测试期间可能获得高分,但在部署到多样化或意想不到的场景中进行 实时推理 时会显著失败。

数据倾斜的常见来源

偏差可以在开发生命周期的多个阶段渗透到数据集中,通常源于收集或标注过程中的人为决策。

  • 选择偏差: 当收集到的数据不能随机代表目标人群时,就会出现这种情况。 例如,如果使用名人图像为主创建 人脸识别数据集,可能会使模型偏向浓妆和专业打光,导致其在日常网络摄像头图像上表现不佳。
  • 标注错误: 数据标注过程中的主观性可能引入人为偏见。如果标注者由于缺乏明确的指导方针而持续错误分类模糊对象,模型会将这些错误视为真实标注。
  • 表示偏差即使是随机选择,少数群体也可能在统计上被多数类别淹没。在目标detect中,一个包含10,000张汽车图像但只有100张自行车图像的数据集,将导致模型偏向于detect汽车。

现实世界的应用和后果

数据集偏差的影响在各个行业中都非常显著,尤其是在自动化系统做出高风险决策或与物理世界交互的领域。

在汽车行业中,汽车 AI 依赖摄像头来识别行人与障碍物。如果一辆自动驾驶汽车主要在阳光充足、干燥气候下收集的数据上进行训练,那么它在雪天或大雨中运行时可能会出现性能下降。这是训练分布未能与操作分布匹配的典型例子,从而导致安全风险。

同样,在医学图像分析中,诊断模型通常在历史患者数据上进行训练。如果一个旨在detect皮肤状况的模型是在以浅肤色为主的数据集上训练的,在诊断深肤色患者时,其准确性可能会显著降低。解决这个问题需要共同努力,策划多样化的数据集,以确保所有人口群体中的AI公平性

缓解策略

开发者可以通过采用严格的审计和先进的训练策略来减少数据集偏差。诸如 数据增强 等技术通过人工创建代表性不足的示例变体(例如,翻转、旋转或调整亮度)来帮助平衡数据集。此外,生成 合成数据 可以填补真实世界数据稀缺或难以收集的空白。

有效管理这些数据集至关重要。Ultralytics Platform 允许团队在训练开始前可视化类别分布并识别不平衡。此外,遵循NIST AI风险管理框架等指南有助于组织系统地构建识别和缓解这些风险的方法。

数据集偏差与相关概念

区分数据集偏差与类似术语有助于理解错误的来源:

  • 对比 算法偏差数据集偏差是以数据为中心的;它意味着“原材料”存在缺陷。算法偏差是以模型为中心的;它源于算法本身的设计或优化算法,后者可能优先考虑多数类别以最大化整体指标,但牺牲了少数群体。
  • 对比 模型漂移数据集偏差是一个静态问题,在训练时就已存在。模型漂移(或数据漂移)发生在模型部署,真实世界数据随时间变化时,需要持续的模型监控

代码示例:减少偏差的增强

以下示例演示了如何在 YOLO26 训练期间应用数据增强。通过增加几何增强,模型学习更好地泛化,从而可能减少对训练集中特定物体方向或位置的偏差。

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

让我们一起共建AI的未来!

开启您的机器学习未来之旅