深圳Yolo 视觉
深圳
立即加入
词汇表

机器“忘学”

了解“机器遗忘”技术,有选择地移除敏感训练数据。了解如何借助Ultralytics 确保符合 GDPR 规定并保障数据隐私。

机器遗忘是机器学习的一个新兴分支, 专注于从已训练模型中消除 特定训练子集的影响。随着模型处理海量信息, 有选择地“遗忘”数据的能力已 变得至关重要。这一过程使开发者能够提取特定数据点,而无需从头开始重新训练 整个架构,从而节省大量时间和 计算开销

这项技术背后的主要驱动力是 数据隐私。随着严格的 数据保护法规 以及《通用数据保护条例》(GDPR)中的“被遗忘权”等规定的出台,用户拥有 要求删除其个人信息的合法权利。机器忘却技术提供了一种途径,能够安全地 从 深度学习模型中清除这些数据, 在确保合规的同时,保持模型的整体实用性。

机器“忘学”的原理

传统的梯度下降机制将训练 数据深深地嵌入到网络的权重中。正因如此,仅仅从数据库中删除原始图像或文本文件, 并不能从模型本身中清除已学习的模式。 机器遗忘技术通常分为两类: 精确遗忘和近似遗忘。 精确遗忘可确保最终模型在 统计意义上与完全未使用被遗忘数据训练的模型完全一致,这通常通过巧妙的数据集 划分来实现。近似遗忘在 近期关于高效遗忘算法的研究中常被提及,它利用数学手段调整模型参数,从而追溯性地消除目标 数据的影响。

必须区分机器“忘却”与 “持续学习”。持续学习 旨在逐步积累新知识,同时避免出现灾难性遗忘;而“忘却”则是对知识进行有意识的、 有针对性的清除。致力于 算法公平 的组织也会利用“忘却”机制,通过在训练后清除 有害或失真的数据,从而纠正人工智能中的偏见

实际应用

“忘却算法”已迅速从理论 人工智能安全研究领域,发展到各行各业的 实际应用。

  • 医疗保健与医学影像: 医学影像分析中,患者的同意 可随时撤销。如果患者要求撤回其X光片,医院可利用“遗忘”技术从诊断模型中提取 该患者的特定生理特征,同时不影响系统对 其他患者进行疾病detect 的能力。
  • 监控与安全:在现代 智能监控系统中, 摄像头可能会无意中捕获车牌或面部等个人身份信息(PII)。“遗忘” 功能使开发者能够从已部署的 计算机视觉模型中追溯性地移除此类特定个人身份信息,从而符合 隐私保护型人工智能技术的要求。

实施“忘却”策略

尽管直接、单步的“忘学”API仍是机器忘学挑战中的活跃研究领域, 但从业者通常通过整理经过清理的数据集并启动快速 再训练循环,来实现精确的忘学基准。在使用Ultralytics 基于云的数据管理时,您可以轻松对数据集进行版本控制,从而排除已被撤销的数据。

以下是一个简短的Python ,演示了通过在经过预处理的数据集上重新训练 Ultralytics 来实现“忘却”这一基础方法:

from ultralytics import YOLO

# Load an existing, pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Naive exact unlearning: perform efficient retraining on a sanitized dataset.
# The 'sanitized_data.yaml' excludes the specific sensitive data to be "unlearned"
results = model.train(data="sanitized_data.yaml", epochs=50, device="cuda")

随着对 神经网络 模型优化和 鲁棒性的需求 日益增长,“遗忘学习”正逐渐成为一项标准要求。无论您是在管理复杂的 图像分类管道,还是将 模型部署到边缘设备,集成能够负责任地遗忘数据的机制,都能确保您的 AI 系统保持合规、公平 且值得信赖。

使用Ultralytics YOLO增强动力

为您的项目获取高级 AI 视觉。立即找到适合您目标的许可证。

探索许可选项