Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Ataques Adversariais

Descubra o impacto dos ataques adversariais em sistemas de IA, seus tipos, exemplos do mundo real e estratégias de defesa para aprimorar a segurança da IA.

Os ataques adversários são uma categoria sofisticada de técnicas de manipulação concebidas para enganar os modelos de aprendizagem automática (ML) e levá-los a fazer previsões incorretas com elevada confiança. Estes ataques funcionam introduzindo perturbações subtis, muitas vezes impercetíveis, nos dados de entrada, tais como imagens, áudio ou texto. Embora essas alterações pareçam inofensivas ou aleatórias para um observador humano, elas exploram vulnerabilidades matemáticas específicas nos limites de decisão de redes neurais de alta dimensão. À medida que os sistemas de Inteligência Artificial (IA) se tornam parte integrante de infraestruturas críticas para a segurança, compreender como essas vulnerabilidades funcionam é essencial para desenvolver protocolos de segurança e mecanismos de defesa robustos para a IA .

Como Funcionam os Ataques Adversariais

Num processo típico de treino de aprendizagem profunda (DL), um modelo otimiza os seus pesos para minimizar o erro num conjunto de dados de treino. No entanto, esses modelos criam essencialmente mapas complexos num espaço multidimensional. Um ataque adversário calcula a «direção» precisa nesse espaço necessária para empurrar uma entrada através de um limite, invertendo a classificação do modelo. Por exemplo, na visão computacional (CV), alterar os valores dos pixels de uma imagem de um panda por uma quantidade calculada de "ruído" pode fazer com que o sistema a classifique erroneamente como um gibão, mesmo que a imagem ainda pareça exatamente um panda aos olhos humanos.

As estratégias de ataque são geralmente categorizadas pelo nível de acesso que o invasor tem ao sistema alvo:

  • Ataques de caixa branca: O invasor tem total transparência sobre a arquitetura, os gradientes e os pesos do modelo. Isso permite que ele calcule matematicamente a perturbação mais eficaz, geralmente usando técnicas como o Método de Sinal de Gradiente Rápido (FGSM).
  • Ataques de caixa preta: O invasor não tem conhecimento dos parâmetros do modelo interno e só pode observar entradas e saídas. Os invasores costumam usar um "modelo substituto" para gerar exemplos adversários que se transferem efetivamente para o sistema alvo , uma propriedade conhecida como transferibilidade.

Aplicações e riscos no mundo real

Embora frequentemente discutidos em pesquisas teóricas, os ataques adversários representam riscos tangíveis para implementações no mundo real, especialmente em sistemas autónomos e segurança.

  • Veículos autónomos: Os carros autônomos dependem muito da detecção de objetos para interpretar sinais de trânsito. Pesquisas demonstraram que a aplicação de adesivos ou fitas cuidadosamente elaborados em um sinal de parada pode enganar o sistema de visão do veículo, fazendo-o percebê-lo como um sinal de limite de velocidade. Esse tipo de ataque no mundo físico pode levar a falhas perigosas na IA em aplicações automotivas.
  • Fugitivosdo reconhecimento facial: Os sistemas de segurança que controlam o acesso com base em dados biométricos podem ser comprometidos por «patches» adversários. Estes podem ser padrões impressos usados em óculos ou roupas que perturbam o processo de extração de características. Isto permite que um indivíduo não autorizado evite completamente a deteção ou se faça passar por um utilizador específico, contornando os sistemas de alarme de segurança.

Gerando exemplos adversários em Python

Para entender como alguns modelos podem ser frágeis, é útil ver como uma imagem pode ser facilmente perturbada. Embora a inferência padrão com modelos como o YOLO26 seja robusta para uso geral, os investigadores frequentemente simulam ataques para melhorar o monitoramento e a defesa do modelo. O exemplo conceitual a seguir usa PyTorch mostrar como os gradientes são usados para calcular uma perturbação adversária (ruído) para uma imagem.

import torch.nn.functional as F

# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image


def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
    # Enable gradient calculation for the input image
    image.requires_grad = True

    # Forward pass: get prediction
    output = model(image)

    # Calculate loss based on the correct class
    loss = F.nll_loss(output, target_class)

    # Backward pass: calculate gradients of loss w.r.t input
    model.zero_grad()
    loss.backward()

    # Create perturbation using the sign of the data gradient (FGSM)
    # This pushes the image in the direction of maximizing error
    perturbation = epsilon * image.grad.data.sign()

    return perturbation

Conceitos Relacionados

É importante distinguir ataques adversários de outras formas de falha ou manipulação do modelo:

  • Contaminação de dados: Ao contrário dos ataques adversários, que manipulam a entrada durante a inferência (tempo de teste), a contaminação de dados envolve corromper os próprios dados de treino antes da construção do modelo, incorporando backdoors ou vieses ocultos.
  • Injeção de prompt: isso é específico para Modelos de Linguagem Grandes (LLMs) e interfaces de texto . Embora conceitualmente semelhante — enganar o modelo —, depende da manipulação semântica da linguagem, em vez da perturbação matemática de dados de pixels ou sinais.
  • Sobreajuste: trata-se de uma falha de treino em que um modelo aprende ruído nos dados de treino em vez do padrão subjacente. Modelos sobreajustados são frequentemente mais suscetíveis a ataques adversários porque os seus limites de decisão são excessivamente complexos e frágeis.

Desenvolver defesas contra esses ataques é um componente essencial do MLOps moderno. Técnicas como o treinamento adversário — em que exemplos atacados são adicionados ao conjunto de treinamento — ajudam os modelos a se tornarem mais resilientes. Plataformas como a Ultralytics facilitam o treinamento rigoroso e os pipelines de validação, permitindo que as equipas avaliem a robustez do modelo antes de implantá-lo em dispositivos de ponta.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora