术语表

数据集偏差

了解如何识别和减轻人工智能中的数据集偏差,以确保为现实世界的应用提供公平、准确和可靠的机器学习模型。

当用于模型训练的数据不能准确代表模型将要部署的真实环境时,就会出现数据集偏差。这种不平衡或倾斜的表示是机器学习(ML)中的一个关键问题,因为模型会学习训练数据中存在的模式和缺陷。如果数据存在偏差,那么生成的人工智能系统就会继承并经常放大这种偏差,从而导致不准确、不可靠和不公平的结果。解决数据集偏差问题是开发负责任的人工智能和维护人工智能伦理的基石。

数据集偏差的常见来源

偏差可能出现在数据管道的各个阶段,从收集到处理。常见的类型包括

  • 选择偏差:当数据不是从目标人群中随机抽样时,就会出现选择偏差。例如,仅从高收入社区收集数据用于零售分析模型会产生选择偏差,导致模型无法了解其他客户群体的行为。
  • 代表性偏差:当数据集中某些子群的代表性不足或过高时,就会出现这种情况。交通监控的基准数据集中大部分是白天的图像,这将导致模型在检测夜间车辆时表现不佳。
  • 测量偏差:这源于数据收集过程中的系统误差或测量工具本身。例如,使用高分辨率相机拍摄某一人群,而使用低分辨率相机拍摄另一人群,就会在计算机视觉数据集中产生测量偏差。
  • 标注偏差:这源于人类标注者在数据标注过程中的主观判断。先入为主的观念会影响标签的应用,尤其是在涉及主观解释的任务中,这会影响模型的学习。

真实案例

  1. 面部识别系统:早期的商业人脸识别系统对女性和有色人种的识别准确率较低。性别阴影项目等研究表明,这主要是由于训练数据集绝大多数由白人男性图像组成。在这种偏差数据上训练出来的模型无法在不同的人群中通用。
  2. 医疗诊断:医学图像分析(如检测 X 射线中的肿瘤)而设计的人工智能模型,可能会根据一家医院的数据进行训练。该模型可以学习该医院成像设备的特定特征。当部署到另一家使用不同机器的医院时,由于数据漂移,其性能可能会大幅下降。这凸显了人工智能在医疗保健领域对多样化数据源的需求。

数据集偏差与算法偏差

必须区分数据集偏差和算法偏差

  • 数据集偏差源于数据本身。在模型看到数据之前,数据就已经存在缺陷,因此这是一个基础问题。
  • 算法偏差可能源于模型的架构或优化过程,即使在数据完全平衡的情况下,也可能系统性地偏向某些结果而非其他结果。

然而,这两者之间却有着千丝万缕的联系。数据集偏差是算法偏差最常见的原因之一。在有偏差的数据上训练出来的模型几乎肯定会做出有偏差的预测,从而产生有偏差的算法。因此,确保人工智能的公平性必须从解决数据中的偏见开始。

缓解战略

减少数据集偏差是一个持续的过程,需要在整个机器学习运营(MLOps)生命周期中进行精心的规划和执行。

  • 深思熟虑的数据收集:努力获取反映真实世界的多样化、有代表性的数据源。遵循数据收集和注释的结构化指南至关重要。使用数据集数据表等框架记录数据集,可提高透明度。
  • 数据扩充和合成:使用一些技术,如对代表性不足的群体进行过度取样、应用有针对性的数据扩增或生成合成数据,以平衡数据集。Ultralytics 模型本机支持各种强大的扩增方法
  • 偏差审计工具:利用谷歌 What-If 工具等工具和Fairlearn等开源库,检查数据集和模型是否存在潜在偏差。
  • 严格的模型评估:除了总体准确性指标外,还要评估不同人口或环境亚群的模型性能。最佳做法是使用模型卡等方法记录评估结果,以保持透明度。
  • 利用现代平台: Ultralytics HUB等平台为数据集管理、可视化和Ultralytics YOLO11 等训练模型提供了集成工具。这可以简化在不同数据上创建和评估模型的过程,从而帮助开发人员构建更加公平的系统。

通过主动解决数据集偏差问题,开发人员可以构建更强大、更可靠、更符合道德规范的人工智能系统,这也是ACM 公平性、问责制和透明度(FAccT)会议等重要会议经常讨论的话题。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板