术语表

数据隐私

了解从匿名化到联合学习等人工智能/移动媒体的关键数据隐私技术,确保信任、合规和合乎道德的人工智能实践。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

人工智能(AI)机器学习(ML)领域,数据隐私是指为保护 AI/ML 系统中使用的个人和敏感信息而采用的原则、法规和技术。它涉及如何管理数据的收集、处理、存储、共享和删除,以确保公平、透明和个人对个人信息的控制。由于人工智能模型(如用于物体检测的模型)通常需要大量数据集进行训练,因此实施强有力的数据隐私措施对于建立用户信任、履行法律义务和遵守道德标准至关重要。您可以在我们的隐私政策中查看Ultralytics 的做法。

数据隐私在人工智能和机器学习中的重要性

数据隐私对人工智能和 ML 至关重要,原因有几个。首先,它能建立用户和利益相关者之间的信任。如果人们相信他们的数据得到了安全和合乎道德的处理,他们就更有可能使用人工智能系统。其次,数据隐私在许多司法管辖区都是一项法律要求。欧洲的《通用数据保护条例》(GDPR)和《加利福尼亚州消费者隐私法》(CCPA)等法规对数据处理制定了严格的标准,对违规行为处以重罚。对于在全球部署人工智能解决方案的企业来说,遵守这些法规至关重要。第三,维护数据隐私是人工智能伦理的核心组成部分,确保人工智能系统尊重个人权利,防止滥用或暴露个人信息造成伤害,包括减少算法偏见如何实现负责任的人工智能是开发人员需要考虑的关键问题。

确保数据隐私的技术

在人工智能和 ML 应用中,有几种技术可用于增强数据隐私:

  • 匿名化和假名化:这些技术可修改个人数据,使个人不易被识别。匿名化是不可逆转地删除身份标识符,而假名化则是用人造身份标识符取代身份标识符,允许在特定条件下重新识别身份。英国信息专员办公室等机构可提供有关这些技术的指导。
  • 差异隐私这种方法在数据集或查询结果中加入统计噪声。它允许数据分析师从汇总数据中提取有用的见解,同时在数学上保证任何单个个体的信息仍然受到保护。哈佛大学隐私工具项目等研究机构正在探索这种方法的应用。
  • 联合学习这种方法可以在多个分散的设备或服务器上训练ML 模型,这些设备或服务器持有本地数据样本,而无需交换原始数据本身。相反,只共享模型更新(如梯度),从而大大降低了隐私风险。了解更多信息,请访问Google 人工智能博客Google AI Blog on Federated Learning)。
  • 同态加密:这种先进的加密技术可以直接对加密数据进行计算,而无需首先解密。虽然计算密集,但它提供了强大的隐私保证。通过Microsoft 研究院在 SEAL 方面的工作等资源探索相关概念。
  • 安全多方计算(SMPC):SMPC 协议使多方能够共同计算其输入的函数,同时保持这些输入的私密性。维基百科上有相关概述。

数据隐私在 AI/ML 中的现实应用

数据隐私技术在众多人工智能/人工智能应用中至关重要:

  1. 医疗保健:医疗保健领域的人工智能中,当为医疗图像分析疾病诊断等任务训练模型时,隐私技术可保护敏感的患者信息。联盟学习等技术可让医院利用本地患者数据合作进行模型训练,而无需直接共享数据,有助于遵守HIPAA 等法规。合成数据生成是这里使用的另一种方法。
  2. 金融:银行和金融机构将人工智能用于欺诈检测、信用评分和个性化服务。匿名化和差分隐私等数据隐私方法有助于保护客户金融数据,同时促进这些人工智能驱动的金融工具的开发,确保符合支付卡行业数据安全标准(PCI DSS)等标准。

相关概念

必须将数据隐私与相关的数据安全概念区分开来。

  • 数据隐私:重点关注有关收集、使用、存储和共享个人数据的规则、政策和个人权利。它涉及的问题包括可以收集哪些数据、为什么要收集、可以访问以及如何合理使用。主要关注点包括同意、透明度和目的限制。
  • 数据安全:涉及为保护数据免遭未经授权的访问、破坏、损坏和其他威胁而实施的技术和组织措施。例如加密、防火墙、访问控制和入侵检测系统。

数据隐私和数据安全虽然截然不同,但却相互依存。强大的数据安全性是确保数据隐私的先决条件,因为如果数据没有得到充分保护以防泄露,隐私政策就会失效。这两者都是构建值得信赖的人工智能系统的重要组成部分,通常通过全面的机器学习运营(MLOps)实践进行管理。电子隐私信息中心(EPIC)等组织倡导强有力的隐私保护,而NIST 隐私框架等框架则为实施提供了指导。

阅读全部