数据集偏差
了解如何识别和缓解人工智能中的数据集偏差,以确保公平、准确和可靠的机器学习模型,从而应用于实际场景。
模型训练使用的数据不能准确代表模型将要部署的真实环境时,就会发生数据集偏差。这种不平衡或倾斜的表示是机器学习 (ML)中的一个关键问题,因为模型会学习训练数据中存在的模式和缺陷。如果数据存在偏差,则生成的 AI 系统将继承并经常放大该偏差,从而导致不准确、不可靠和不公平的结果。解决数据集偏差是开发负责任的 AI和维护AI 伦理的基石。
数据集偏差的常见来源
偏差可能在数据管道的各个阶段引入,从收集到处理。一些常见的类型包括:
- 选择偏差: 当数据不是从目标人群中随机抽样时,就会发生这种情况。例如,仅从高收入社区收集零售分析模型的数据会产生选择偏差,从而导致模型无法理解其他客户群体的行为。
- 表示偏差: 当某些子组在数据集中表示不足或过度表示时,就会发生这种情况。一个主要包含白天图像的交通监控基准数据集会导致模型在夜间检测车辆时表现不佳。
- 测量偏差: 这是由于数据收集过程中的系统性误差或测量工具本身引起的。例如,对一部分人群使用高分辨率相机,而对另一部分人群使用低分辨率相机,会将测量偏差引入到计算机视觉数据集中。
- 标注偏差(Annotation Bias): 这源于人工标注者在 数据标注 过程中的主观判断。先入为主的观念会影响标签的应用,尤其是在涉及主观解释的任务中,这会影响模型的学习。
真实世界的例子
- 人脸识别系统: 早期商业人脸识别系统在女性和有色人种方面的准确性通常较低。诸如性别阴影项目等研究表明,这主要是由于训练数据集主要由白人男性图像组成。在这种倾斜数据上训练的模型无法推广到不同的人群。
- 医疗诊断: 一个用于医学图像分析的AI模型,例如用于检测X光片中的肿瘤,可能是在来自单一医院的数据上训练的。该模型可能会学习到特定于该医院成像设备的特征。当部署到另一家拥有不同设备的医院时,由于数据漂移,其性能可能会显著下降。 这突出了医疗保健领域AI中多样化数据源的需求。
数据集偏差 vs. 算法偏差
区分数据集偏差和算法偏差非常重要。
- 数据集偏差源于数据本身。数据在模型看到它之前就存在缺陷,使其成为一个根本性问题。
- 算法偏差 可能源于模型的架构或优化过程,即使在数据完全平衡的情况下,这些架构或优化过程也可能系统地偏向某些结果。
然而,这两者之间存在着深刻的联系。数据集偏差是算法偏差最常见的原因之一。在有偏差的数据上训练的模型几乎肯定会做出有偏差的预测,从而产生有偏差的算法。因此,确保 AI 的公平性 必须从解决数据中的偏差开始。
缓解策略
缓解数据集偏差是一个持续的过程,需要在整个机器学习运维(MLOps)生命周期中进行周密的计划和执行。
通过主动解决数据集偏差问题,开发人员可以构建更强大、更可靠和更符合伦理道德的 AI 系统,这是在 ACM 公平性、责任性和透明度会议 (FAccT) 等领先会议上经常讨论的话题。