深圳Yolo 视觉
深圳
立即加入
词汇表

对抗性攻击

了解对抗性攻击对 AI 系统的影响、它们的类型、真实世界的例子以及增强 AI 安全性的防御策略。

对抗性攻击是一类精密的操纵技术,旨在诱使机器学习(ML)模型以高置信度做出错误预测。这类攻击通过对输入数据(如图像、音频或文本)施加微妙且往往难以察觉的扰动来实现。 这些变化在人类观察者眼中看似无害或随机,却能利用高维神经网络决策边界中的特定数学漏洞。随着人工智能系统日益成为关键安全基础设施的核心组成部分,理解这些漏洞的运作机制对于开发稳健的人工智能安全协议和防御机制至关重要。

对抗性攻击如何运作

在典型的深度学习(DL)训练过程中, 模型通过优化权重来最小化训练数据集上的误差。然而这些模型本质上是在多维空间中创建复杂映射。对抗性攻击通过计算该空间中精确的"方向",将输入推过边界,从而颠覆模型的分类结果。 例如在计算机视觉领域, 通过在熊猫图像中添加精确计算的"噪声"值, 可能导致系统将其误判为长臂猿—— 尽管人眼看来图像仍完全是熊猫形态。

攻击策略通常根据攻击者对目标系统的访问权限级别进行分类:

  • 白盒攻击攻击者 能够完全洞悉模型的架构、梯度和 模型权重。这使他们能够通过数学方法 计算出最有效的扰动,通常采用诸如快速梯度符号法(FGSM)等技术。
  • 黑盒攻击 攻击者对内部模型参数一无所知,仅能观察输入与输出。攻击者 常利用"替代模型"生成对抗样本,这些样本能有效转移至目标 系统,该特性称为可迁移性。

现实世界的应用与风险

尽管对抗性攻击在理论研究中常被讨论,姿势估计 对现实世界部署姿势估计 威胁, 尤其在自主系统和安全领域。

  • 自动驾驶汽车 自动驾驶汽车高度依赖物体检测技术来解读交通标志。 研究表明,在停车标志上贴上精心设计的贴纸或胶带,可使车辆视觉系统将其误判为限速标志。此类物理世界攻击可能导致汽车应用中的人工智能系统发生危险故障。
  • 人脸识别规避者 基于生物特征的门禁控制系统可能被对抗性"遮挡物"所破解。 这些遮挡物可以是佩戴在眼镜或衣物上的印刷图案, 它们会干扰特征提取过程。这使得未经授权者 能够完全规避检测,或冒充特定用户身份, 从而绕过安防报警系统

使用Python生成对抗样本

要理解某些模型有多么脆弱,观察图像如何轻易受到扰动很有帮助。虽然像YOLO26这样的模型在标准推理中具有通用鲁棒性,但研究人员常通过模拟攻击来改进模型监测与防御机制。下面的概念性示例PyTorch 如何利用梯度计算图像的对抗性扰动(噪声)。

import torch.nn.functional as F

# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image


def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
    # Enable gradient calculation for the input image
    image.requires_grad = True

    # Forward pass: get prediction
    output = model(image)

    # Calculate loss based on the correct class
    loss = F.nll_loss(output, target_class)

    # Backward pass: calculate gradients of loss w.r.t input
    model.zero_grad()
    loss.backward()

    # Create perturbation using the sign of the data gradient (FGSM)
    # This pushes the image in the direction of maximizing error
    perturbation = epsilon * image.grad.data.sign()

    return perturbation

相关概念

区分对抗性攻击与其他形式的模型失效或操纵至关重要:

  • 数据投毒 不同于在推理阶段(测试时)篡改输入的对抗性攻击,数据投毒 是在模型构建前直接破坏训练数据本身, 植入隐藏的后门或偏见。
  • 提示注入这是 大型语言模型(LLMs)和文本 接口特有的技术。虽然概念上相似——欺骗模型——但它依赖于语义语言操纵,而非 对像素或信号数据的数学扰动。
  • 过拟合这是一种训练失败现象,模型在训练数据中学习到的并非潜在模式,而是噪声。过拟合模型往往更容易受到对抗性攻击,因为其决策边界过于复杂且脆弱。

针对这些攻击构建防御机制是现代MLOps的核心组成部分。诸如对抗性训练等技术——即向训练集添加受攻击的样本——有助于提升模型的抗攻击能力。Ultralytics 等工具可构建严谨的训练与验证管道,使团队能在模型部署至边缘设备前评估其稳健性。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入