术语表

联合学习

发现联合学习:一种注重隐私的人工智能方法,可在不共享原始数据的情况下,跨设备进行分散模型训练。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

联合学习(Federated Learning)是一种机器学习(ML)技术,旨在通过多个分散的边缘设备或持有本地数据样本的服务器来训练算法,而无需交换原始数据本身。这种方法直接解决了与数据隐私、安全和数据访问权限有关的关键问题,可使用无法或不应该集中收集的数据集进行协作模型训练。Federated Learning 将模型训练过程带到数据所在位置,而不是将数据带到中央模型,数据所在位置通常是智能手机或医院服务器等边缘人工智能设备。这代表着向更安全、更注重隐私的人工智能(AI)的转变。

联合学习的核心概念

联合学习通过一个迭代过程运行,通常由中央服务器或协调者协调:

  1. 初始化:中央服务器以一个初始全局模型(例如,一个通用的 Ultralytics YOLO模型)。
  2. 分发:该全局模型将发送到选定的客户端设备(如移动电话、本地服务器)。
  3. 本地训练:每个客户端设备都使用自己的本地数据来训练接收到的模型。由于这些数据从未离开过设备,因此隐私得到了保护。这一步骤利用的是本地计算资源。
  4. 更新传输:客户端不发送原始数据,而只向中央服务器发送更新的模型参数weights and biases)或计算梯度。这里可以采用安全聚合和差分隐私等技术来增加安全性。
  5. 聚合:中央服务器汇总来自参与客户端的更新(例如,通过平均权重),以改进共享的全局模型。
  6. 迭代:通常使用《YOLO 性能指标》等指南中讨论的标准指标进行评估。

这一过程允许全局模型从分布在多个地点的大量不同数据中学习,而不会损害用户隐私。您可以探索联邦学习的研究和应用,了解更多背景信息。

联合学习与分布式培训分布式培训

虽然联合学习涉及在多台机器上进行训练,但它与传统的分布式训练有很大不同:

  • 数据分布:分布式训练通常假定数据是集中收集的,然后分布在数据中心等受控环境中的各个节点上(通常是相同且独立的,或称 IID)。而联盟式学习从一开始就假定数据是分散的,而且通常是非独立的,反映了现实世界中不同用户或地点的数据差异。
  • 隐私:保护隐私是联盟学习的基本目标。分布式训练的主要目标通常是可扩展性和速度,而对训练过程本身的数据隐私关注较少。
  • 网络和硬件:联合学习必须处理不可靠的网络连接和客户端设备的不同硬件能力,而分布式培训通常在高带宽网络和更统一的硬件上运行。

联合学习的应用

在数据敏感、庞大或固有分布式的情况下,联合学习尤为重要:

  • 医疗保健:为多家医院的医学图像分析等任务训练诊断模型,而无需共享敏感的患者记录。这样就能在遵守 HIPAA 等严格隐私法规的同时,利用不同的患者数据创建更强大的模型。请参阅 "医疗保健信息学的联合学习 "中的示例,并探索相关的医疗保健人工智能解决方案
  • 移动设备:通过直接在用户手机上训练模型,改进预测性文本键盘(如Google的 Gboard)、语音助手命令识别或个性化推荐等设备功能,而无需将个人数据或通信历史上传至中央服务器。
  • 金融:在不要求银行共享客户机密数据的情况下,通过对不同银行持有的交易数据进行模型训练,检测欺诈性交易。
  • 工业物联网:根据来自不同工厂或地点的传感器数据开发机器预测性维护模型,而无需集中潜在的专有操作数据。

联合学习的好处

  • 增强隐私保护:原始数据在客户端设备上保持本地化,大大降低了隐私风险。
  • 减少通信负荷:传输模型更新所需的带宽通常远低于传输整个数据集。
  • 实时学习:利用边缘设备上的最新本地数据,可以更频繁地更新模型。
  • 利用多样化数据:可访问更大、更多样的数据集,这些数据集因法律、道德或物流原因而无法集中管理,可能会减少过度拟合

联合学习的挑战

尽管 Federated Learning 具有优势,但它也面临着一些障碍:

  • 通信效率:协调和汇总来自数千或数百万台设备的更新可能既缓慢又复杂,尤其是在带宽有限或连接不可靠的情况下。
  • 系统异构性:客户端设备在处理能力 (CPU/GPU)、内存、网络连接和电源可用性等方面存在很大差异。
  • 统计异质性:跨设备的数据通常是非 IID(非完全相同的独立分布),这会使全局模型产生偏差或减慢收敛速度。
  • 安全问题:在提高数据私密性的同时,系统本身也容易受到针对模型更新的恶意攻击或中央服务器潜在的安全漏洞。确保整体数据安全仍然至关重要。
  • 客户管理:选择合适的客户、管理参与情况以及处理辍学问题都是后勤方面的挑战。

TensorFlow Federated等框架和OpenMined等组织提供的库旨在应对其中的一些挑战。联合学习虽然复杂,但却是构建大规模隐私感知人工智能系统的一个有前途的方向。Ultralytics HUB等平台有助于整个模型部署和管理生命周期,有可能涵盖使用联合方法开发的模型。您可以在Ultralytics 生态系统中探索各种模型部署选项。将 FL 与主动学习(Active Learning)等其他技术相结合也是一个正在进行的研究领域,这在 "主动学习加速计算机视觉开发 "博文中已有论述。

阅读全部