术语表

对抗性攻击

了解对抗性攻击对人工智能系统的影响、攻击类型、真实案例以及增强人工智能安全性的防御策略。

对抗性攻击是一种通过向机器学习模型提供恶意的、故意设计的输入来欺骗它们的技术。这些输入被称为对抗示例,是通过对合法数据进行细微修改而创建的。这些改动通常很小,肉眼无法察觉,但却能导致神经网络以极高的置信度做出错误的预测。这一漏洞是人工智能系统的一个重大安全隐患,特别是在可靠性和准确性至关重要的关键计算机视觉应用中。

对抗性攻击如何发挥作用

对抗性攻击利用了深度学习模型的学习和决策方式。模型通过识别区分不同类别数据的 "决策边界 "来学习识别模式。攻击者的目标是找到改变输入的最有效方法,使其越过这一边界,从而导致错误分类。添加的扰动并非随机噪音,而是精心计算的信号,旨在利用模型的特定弱点。卡内基梅隆大学等机构的研究深入揭示了这些机制。

对抗性攻击的类型

攻击一般根据攻击者对目标机型的了解程度进行分类。

  • 白盒攻击:攻击者完全了解模型的架构、参数和训练数据。这种完全访问权限允许创建高效的攻击,如快速梯度符号法(FGSM),它对测试模型的鲁棒性非常有效。
  • 黑盒攻击:攻击者对模型没有内部知识,只能通过提供输入和观察输出来查询模型。这些攻击在现实世界中更为逼真。它们通常依赖于可转移性原则,即为愚弄一个模型而创建的对抗示例很可能会愚弄另一个模型,谷歌人工智能的研究人员对这一现象进行了探索。

真实案例

  1. 图像识别中的误分类:一个著名的例子是,一个图像分类模型能正确识别一张熊猫图片。在添加了一层不易察觉的对抗噪声后,同一模型却非常肯定地将图像错误地分类为长臂猿。
  2. 欺骗自主系统:研究人员成功证明,在停车标志上贴上简单的贴纸就能骗过自动驾驶汽车中的物体检测模型。该模型可能会将该标志误认为是 "限速 45 "标志,这对汽车系统中的任何人工智能来说都是一个关键故障。这些被称为物理对抗攻击

防御对抗性攻击

保护模型免受这些威胁是一个活跃的研究领域。常见的防御策略包括

  • 对抗训练:这是目前最有效的防御方法之一。它包括生成对抗示例,并将其纳入模型的训练集。这一过程是数据增强的一种形式,有助于模型学会忽略对抗性扰动并建立更稳健的表征。
  • 输入预处理:在将输入图像输入模型之前,对其进行模糊化、降噪或 JPEG 压缩等转换处理,有时可以去除或减少对抗性噪声。
  • 模型组合:将多个不同模型的预测结果组合在一起,可以使攻击者更难制作出同时骗过所有模型的单一对抗性示例。

对抗式机器学习的未来

对抗性人工智能领域经常被描述为一场持续的 "军备竞赛",新的攻击和防御手段层出不穷。构建可信赖的人工智能需要强大的开发和测试实践。像MITRE ATLAS这样的逆向威胁知情防御框架可以帮助企业了解这些威胁并做好准备。NIST等组织和微软等公司正在积极研究防御措施。结合可解释人工智能(XAI)的原则有助于识别漏洞,同时遵守严格的人工智能道德规范,指导负责任的模型部署。持续的研究和警惕确保Ultralytics YOLO11等模型能够安全可靠地部署到实际应用中。要了解有关安全模型开发的更多信息,请浏览我们的教程,并考虑使用Ultralytics HUB等平台来简化安全工作流程。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板