深圳Yolo 视觉
深圳
立即加入
词汇表

对抗性攻击

了解对抗性攻击对 AI 系统的影响、它们的类型、真实世界的例子以及增强 AI 安全性的防御策略。

逆向攻击是一种复杂的技术,用于欺骗 机器学习模型的一种复杂技术、 故意设计的输入数据扰动,从而欺骗机器学习模型。这些修改通常是肉眼无法察觉的、 操纵神经网络中的数学运算 神经网络,使其做出 高置信度但不正确的预测。随着 人工智能 越来越多地集成到关键系统中,了解这些漏洞对于确保 模型部署保持安全可靠。

机制和技术

对抗性攻击的核心原理是找出模型决策边界中的 "盲点"。 在深度学习中,模型通过 优化模型权重,使误差最小化。攻击者 利用这一点,计算出推动输入跨越分类阈值所需的精确变化。例如 例如,伊恩-古德费洛(Ian Goodfellow)等研究人员推出的快速梯度符号法(FGSM 伊恩-古德费洛(Ian Goodfellow)等研究人员提出的快速梯度符号法(Fast Gradient Sign Method,简称 FGSM),就是按照损失函数最大化的方向调整输入像素值、 快速创建一个对抗范例。

攻击一般按攻击者掌握信息的程度分类:

  • 白盒攻击:攻击者可以完全访问模型的架构和参数。这 这样就可以进行精确计算,从而骗过特定层,并经常测试算法偏差的极限。 算法偏差的极限。
  • 黑盒攻击:攻击者没有内部知识,只能通过输入和输出与模型交互。 输入和输出与模型交互,类似于标准的 推理引擎。这些攻击通常依赖于 可转移性,即能骗过一个模型的例子很可能也能骗过另一个模型。

现实世界的应用与风险

对抗性攻击的影响远远超出了学术研究的范围,对安全关键基础设施构成了真正的风险。 基础设施带来真正的风险。

  1. 自动驾驶:人工智能汽车领域,视觉感知系统 依靠物体检测来识别交通 标志。研究人员已经证明,在停车标志上贴上特定的贴纸会使自动驾驶汽车 自动驾驶汽车将其误认为是限速标志。 限速标志。这种类型的物理对抗攻击凸显了在公共道路上使用的计算机视觉系统需要极强的鲁棒性。 在公共道路上使用的计算机视觉系统需要具备极强的鲁棒性。
  2. 生物识别安全:许多安全设施和设备使用 面部识别进行门禁控制。 可以设计对抗性的眼镜或印刷图案来破坏特征提取过程。 特征提取过程 未经授权的用户绕过安全系统或冒充特定个人。

防御和稳健性

抵御这些威胁是 人工智能安全的关键组成部分。像 MITRE ATLAS等框架提供了对手战术的知识库,帮助开发人员 加固他们的系统。一个主要的防御策略是对抗训练,即生成对抗示例并添加到训练数据中。 生成并添加到训练数据中。这 迫使模型学会忽略微小的扰动。

另一种有效的方法是数据扩增。通过 在训练过程中引入噪音、明显的裁剪或马赛克效应,模型就能更好地泛化,变得不那么脆弱。 脆性。NIST NIST 人工智能风险管理框架》强调了这些 测试和验证程序,以降低安全风险。

与相关概念的区别

必须将对抗性攻击与安全领域的类似术语区分开来:

  • 对抗性攻击与数据中毒:对抗性攻击会在推理时操纵输入数据,欺骗训练有素的模型。 来欺骗训练有素的模型、 数据中毒涉及 在训练开始破坏数据集,损害模型的基础完整性。
  • 恶意攻击与即时注入:逆向攻击通常针对判别模型中的数字或视觉 数据。相比之下 提示注入是针对 大型语言模型 (LLM),其中 恶意文本指令会覆盖人工智能的编程。

加强模型的稳健性

下面的Python 代码段演示了如何在训练过程中通过 Ultralytics YOLO11.虽然这不会产生攻击、 利用MixUp 和 Mosaic 等技术,可显著提高模型对输入变化和潜在对抗性噪声的鲁棒性。 的鲁棒性。

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
    data="coco8.yaml",
    epochs=50,
    mixup=0.2,  # Blends images together
    mosaic=1.0,  # Combines 4 images into 1
    fliplr=0.5,  # Randomly flips images horizontally
)

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入