AI 中的偏差
了解如何通过策略、工具和真实案例来识别、缓解和预防 AI 系统中的偏见,从而实现合乎道德的 AI 开发。
AI 中的偏差是指人工智能 (AI)系统输出中的系统性错误或偏见。这些偏差可能导致不公平、不公正或歧视性的结果,通常使特定群体或人群处于不利地位。随着人工智能系统越来越融入医疗保健和金融等关键领域,理解和减轻偏差已成为负责任的 AI 开发中的一项核心挑战。偏差不是指偶尔的随机错误,而是一种可重复的、反映数据或算法中潜在缺陷的倾斜结果模式。
Ai 偏差的来源
AI偏见可能源于模型开发生命周期的多个环节。最常见的来源包括:
- 数据集偏差: 这是 AI 偏差最普遍的来源。当训练数据不能代表真实世界或目标人群时,就会发生这种情况。例如,用于招聘工具的数据集主要根据男性主导行业的历史数据进行训练,可能会学会偏爱男性候选人。这可以表现为抽样偏差(数据不是随机收集的)、选择偏差(数据不能代表环境)或测量偏差(数据标注不一致)。创建平衡且多样化的数据集是至关重要的第一步。
- 算法偏差: 这种偏差源于人工智能算法本身。某些算法可能固有地放大数据中存在的微小偏差,或者它们的设计可能以某种方式优先考虑某些特征而不是其他特征,从而产生不公平的结果。例如,损失函数的选择会影响模型如何惩罚不同亚组的错误。
- 人为偏见: AI 系统的开发者、数据标注员和用户可能会无意中将自己的认知偏见引入到 AI 模型中。这些个人和社会偏见会影响问题的框架方式、数据的收集和标注方式以及模型结果的解读方式。
真实世界的例子
- 人脸识别技术: 许多商业人脸识别系统在识别来自代表性不足的人群(特别是女性和有色人种)的个体时,历史上显示出更高的错误率。美国国家标准与技术研究院 (NIST) 的研究表明了这些差异,这些差异通常源于主要以白人男性面孔为特征的训练数据集。
- 自动化招聘工具: 一个众所周知的例子是亚马逊开发的实验性招聘工具,该工具被发现会惩罚包含“女性”一词的简历,并降低两所女子学院的毕业生的等级。 该模型从 10 年来提交的历史招聘数据中学习了这些偏见,这些数据反映了科技行业男性占主导地位的情况。亚马逊最终放弃了该项目。
AI 偏差与相关术语
区分 AI 偏见和相关概念非常重要:
- 算法偏差与 AI 偏差: 算法偏差 是一种特殊的 AI 偏差 类型,它源于模型的架构或数学公式。 AI 偏差是一个更广泛的总称,它还包括来自数据和人为干预的偏差。
- 数据集偏差 vs. AI 偏差: 数据集偏差是 AI 偏差的主要原因。如果一个算法在设计上是完全公平的,但如果它是在不平衡或有偏见的数据上训练的,仍然会产生有偏差的结果。
- AI 中的公平性 vs. AI 偏差: AI 中的公平性是致力于解决 AI 偏差的领域。虽然偏差是问题,但公平性涉及用于定义、衡量和促进公平结果的原则、指标和技术。
解决AI偏见问题
缓解 AI 偏差是一个持续的过程,需要在 AI 开发生命周期中采取多方面的方法:
诸如 Ultralytics HUB 这样的平台提供的工具支持更公平的 AI 系统的开发,通过实现仔细的数据集管理,促进 自定义模型训练,并允许监控 Ultralytics YOLO 模型的性能。建立意识并将公平原则嵌入其中(通常在 ACM FAccT 会议 等论坛中讨论)对于创造公平地造福社会的技术至关重要。