敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

对抗性攻击

了解对抗性攻击对 AI 系统的影响、它们的类型、真实世界的例子以及增强 AI 安全性的防御策略。

对抗性攻击是一种通过向 机器学习 模型提供恶意的、故意设计的输入来欺骗它们的手段。这些输入被称为对抗性样本,是通过对合法数据进行细微修改而创建的。这些修改通常非常小,人眼无法察觉,但会导致 神经网络 以高置信度做出错误的预测。这种漏洞代表了 AI 系统的一个重大安全问题,尤其是在可靠性和 准确性 至关重要的关键 计算机视觉 应用中。

对抗性攻击如何运作

对抗性攻击利用了 深度学习 模型学习和做出决策的方式。模型通过识别分离不同数据类别的“决策边界”来学习识别模式。攻击者的目标是找到改变输入的最有效方法,使其跨越此边界,从而导致错误分类。添加的扰动不是随机噪声;它是一种经过仔细计算的信号,旨在利用模型的特定弱点。来自 卡内基梅隆大学 等机构的研究提供了对这些机制的深刻见解。

对抗性攻击的类型

攻击通常根据攻击者对目标模型的了解程度进行分类。

  • 白盒攻击:攻击者完全了解模型的架构、参数和训练数据。这种完全访问权限允许创建高效的攻击,例如快速梯度符号方法(FGSM),该方法对于测试模型的鲁棒性非常有效。
  • 黑盒攻击: 攻击者不了解模型的内部结构,只能通过提供输入并观察输出来查询模型。这些攻击在现实场景中更常见。它们通常依赖于可迁移性原则,即为一个模型创建的对抗样本很可能也会欺骗另一个模型,Google AI 的研究人员对此现象进行了探索。

真实世界的例子

  1. 图像识别中的错误分类: 一个著名的例子涉及一个 图像分类 模型,该模型正确识别了一张熊猫的图片。在添加了一个难以察觉的对抗性噪声层后,同一个模型以很高的确定性将该图像错误地分类为长臂猿。
  2. 欺骗自动驾驶系统:研究人员已经成功地证明,在停车标志上放置简单的贴纸可以欺骗自动驾驶车辆中的目标检测模型。该模型可能会将该标志错误地识别为“限速 45”标志,这对于任何汽车人工智能系统来说都是一个严重的故障。这些被称为物理对抗攻击

对抗性攻击防御

保护模型免受这些威胁是一个活跃的研究领域。常见的防御策略包括:

  • 对抗训练: 这是目前最有效的防御方法之一。它涉及生成对抗样本并将它们包含在模型的训练集中。这个过程是数据增强的一种形式,可以帮助模型学习忽略对抗扰动并构建更强大的表征。
  • 输入预处理: 在将输入图像馈送到模型之前,应用模糊、降噪或 JPEG 压缩等转换有时可以消除或减少对抗性噪声。
  • 模型集成: 组合多个不同模型的预测可以使攻击者更难以制作一个能够同时欺骗所有模型的对抗性示例。

对抗性机器学习的未来

对抗性机器学习领域通常被描述为一场持续的“军备竞赛”,新的攻击和防御不断涌现。构建值得信赖的 AI 需要强大的开发和测试实践。MITRE ATLAS 对抗性威胁信息防御框架等框架可帮助组织了解并防范这些威胁。NIST 等组织和 Microsoft 等公司正在积极研究防御措施。结合可解释 AI (XAI) 的原则有助于识别漏洞,同时遵守严格的 AI 伦理 指导负责任的模型部署。持续的研究和警惕性确保像 Ultralytics YOLO11 这样的模型可以安全可靠地部署在实际应用中。要了解有关安全模型开发的更多信息,请浏览我们的教程,并考虑使用 Ultralytics HUB 等平台来实现简化的安全工作流程。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板