了解对抗性攻击对 AI 系统的影响、它们的类型、真实世界的例子以及增强 AI 安全性的防御策略。
逆向攻击是一种复杂的技术,用于欺骗 机器学习模型的一种复杂技术、 故意设计的输入数据扰动,从而欺骗机器学习模型。这些修改通常是肉眼无法察觉的、 操纵神经网络中的数学运算 神经网络,使其做出 高置信度但不正确的预测。随着 人工智能 越来越多地集成到关键系统中,了解这些漏洞对于确保 模型部署保持安全可靠。
对抗性攻击的核心原理是找出模型决策边界中的 "盲点"。 在深度学习中,模型通过 优化模型权重,使误差最小化。攻击者 利用这一点,计算出推动输入跨越分类阈值所需的精确变化。例如 例如,伊恩-古德费洛(Ian Goodfellow)等研究人员推出的快速梯度符号法(FGSM 伊恩-古德费洛(Ian Goodfellow)等研究人员提出的快速梯度符号法(Fast Gradient Sign Method,简称 FGSM),就是按照损失函数最大化的方向调整输入像素值、 快速创建一个对抗范例。
攻击一般按攻击者掌握信息的程度分类:
对抗性攻击的影响远远超出了学术研究的范围,对安全关键基础设施构成了真正的风险。 基础设施带来真正的风险。
抵御这些威胁是 人工智能安全的关键组成部分。像 MITRE ATLAS等框架提供了对手战术的知识库,帮助开发人员 加固他们的系统。一个主要的防御策略是对抗训练,即生成对抗示例并添加到训练数据中。 生成并添加到训练数据中。这 迫使模型学会忽略微小的扰动。
另一种有效的方法是数据扩增。通过 在训练过程中引入噪音、明显的裁剪或马赛克效应,模型就能更好地泛化,变得不那么脆弱。 脆性。NIST NIST 人工智能风险管理框架》强调了这些 测试和验证程序,以降低安全风险。
必须将对抗性攻击与安全领域的类似术语区分开来:
下面的Python 代码段演示了如何在训练过程中通过 Ultralytics YOLO11.虽然这不会产生攻击、 利用MixUp 和 Mosaic 等技术,可显著提高模型对输入变化和潜在对抗性噪声的鲁棒性。 的鲁棒性。
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
data="coco8.yaml",
epochs=50,
mixup=0.2, # Blends images together
mosaic=1.0, # Combines 4 images into 1
fliplr=0.5, # Randomly flips images horizontally
)

