术语表

对抗性攻击

了解对抗性攻击对人工智能系统的影响、攻击类型、真实案例以及增强人工智能安全性的防御策略。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

对抗性攻击是人工智能(AI)机器学习(ML)领域的一项重大安全挑战。这些攻击涉及故意制作恶意输入(称为对抗示例),旨在欺骗 ML 模型,使其做出错误的预测或分类。这些输入通常包含人类几乎无法察觉的微妙扰动,但足以欺骗目标模型,即使是最先进的系统(如深度学习模型)也存在漏洞。

对抗性攻击如何发挥作用

对抗性攻击背后的核心思想是利用模型学习和决策的方式。模型,尤其是像神经网络(NN)这样的复杂模型,会从大量数据中学习模式。攻击者利用有关模型的知识(白盒攻击)或观察其输入输出行为(黑盒攻击),找到输入的微小变化,从而使模型的决策跨越边界,导致错误。例如,对图像中的像素或句子中的单词稍作改动,就会极大地改变模型的输出,而在人类观察者看来却是正常的。

真实世界的例子和应用

对抗性攻击给各种人工智能应用带来了切实风险:

  1. 计算机视觉(CV)物体检测方面,攻击者可能会在一个停车标志上贴上精心设计的贴纸,从而导致自动驾驶汽车的视觉系统,可能使用的模型包括 Ultralytics YOLO等模型,将其误判为限速标志或完全检测不到。这对人工智能汽车解决方案的安全性产生了严重影响。同样,面部识别系统也会被印在眼镜或衣服上的对抗性图案所欺骗。
  2. 自然语言处理 (NLP):在恶意电子邮件中插入经过巧妙修改的字符或同义词,就可以绕过垃圾邮件过滤器,骗过分类器。执行情感分析的内容审核系统也会被同样规避,使有害内容漏网。
  3. 医学图像分析添加到医学扫描中的对抗性噪声可能会导致误诊,例如,导致模型漏检肿瘤或将良性肿瘤错误地识别为恶性肿瘤,从而影响人工智能在医疗保健领域的应用

对抗性攻击的类型

目前有几种生成对抗范例的方法,包括

  • 快速梯度符号法(FGSM):一种简单快速的方法,利用损失函数相对于输入的梯度来产生扰动。
  • 投影梯度下降法(PGD):一种迭代方法,通常比 FGSM 更强大,它通过多个小步骤来找到有效的扰动。
  • Carlini & Wagner (C&W) 攻击:一系列基于优化的攻击,通常非常有效,但计算量较大。

防御对抗性攻击

保护人工智能模型涉及多种防御策略:

对抗性攻击与其他人工智能安全威胁的比较

对抗性攻击通过操纵输入,专门针对推理时模型决策的完整性。它们与OWASP AI 安全十大威胁等框架中概述的其他AI 安全威胁不同:

  • 数据中毒这包括在学习阶段破坏训练数据以损害模型,创建后门或降低性能。
  • 模型反转/提取:旨在窃取模型本身或其中嵌入的敏感信息、侵犯知识产权或数据隐私的攻击。
  • 算法偏差虽然也是与人工智能伦理相关的一个重要问题,但偏差通常源于偏斜的数据或有缺陷的假设,从而导致不公平的结果,而非推理时的恶意输入操纵。良好的数据安全实践对于减轻各种威胁至关重要。

对抗性攻击和防御的未来

对抗式人工智能领域是一场动态的军备竞赛,新的攻击和防御手段层出不穷。研究重点是开发更复杂的攻击(如物理上可实现的攻击、对不同模式的攻击)和普遍适用的强大防御。了解这些不断变化的威胁对于构建值得信赖的深度学习系统至关重要。结合可解释人工智能(XAI)的原则有助于了解模型的漏洞,同时坚持严格的人工智能伦理,指导负责任的开发。NIST等组织和 GoogleMicrosoft等组织以及谷歌和微软等公司都在积极推动研究和指导方针。持续的警惕和研究确保了 Ultralytics YOLO11等模型在实际部署中保持高准确性和可靠性。探索Ultralytics 综合教程,了解安全模型培训部署的最佳实践。

阅读全部