Glossário

Ataques Adversariais

Descubra o impacto dos ataques adversariais em sistemas de IA, seus tipos, exemplos do mundo real e estratégias de defesa para aprimorar a segurança da IA.

Os ataques adversários são uma técnica sofisticada utilizada para enganar modelos de aprendizagem automática através da introdução de perturbações subtis e introduzindo perturbações subtis e intencionalmente concebidas nos dados de entrada. Estas modificações, muitas vezes imperceptíveis ao olho humano, manipulam as operações matemáticas numa rede neural, levando-a a fazer previsões de alta confiança mas incorrectas. À medida que a inteligência artificial se torna integrada em sistemas críticos, compreender estas vulnerabilidades é essencial para garantir que a a implantação do modelo permanece segura e fiável.

Mecanismos e técnicas

O princípio fundamental de um ataque adversário é identificar os "pontos cegos" no limite de decisão de um modelo. Na aprendizagem profunda, os modelos aprendem a classify os dados optimizando os pesos do modelo para minimizar o erro. Os atacantes exploram isto calculando as alterações exactas necessárias para fazer passar uma entrada por um limiar de classificação. Por Por exemplo, o método Fast Gradient Sign (FGSM), introduzido por investigadores, incluindo Ian Goodfellow, ajusta os valores dos pixels de entrada na direção que maximiza a função de perda, criando rapidamente um exemplo contraditório.

Os ataques são geralmente classificados de acordo com o nível de informação disponível para o atacante:

Ataques de caixa branca: O atacante tem acesso total à arquitetura e aos parâmetros do modelo. Isto permite cálculos precisos para enganar camadas específicas, testando frequentemente os limites da algorítmicos.
Ataques de caixa preta: O atacante não tem conhecimento interno e interage com o modelo apenas através de entradas e saídas, semelhante a um motor de inferência padrão. Estes ataques baseiam-se frequentemente na transferibilidade, em que um exemplo que engana um modelo é suscetível de enganar outro.

Aplicações e riscos no mundo real

As implicações dos ataques adversários vão muito além da investigação académica, representando riscos reais para as infra-estruturas críticas para a segurança infra-estruturas críticas.

Condução autónoma: No domínio da IA no sector automóvel, os sistemas de perceção visual dependem da deteção de objectos para identificar sinais de trânsito. Os investigadores demonstraram que a colocação de autocolantes específicos num sinal de stop pode fazer com que um veículo autónomo o classifique erradamente como um sinal de limite de velocidade. Este tipo de ataque físico adversário realça a necessidade de extrema robustez nos sistemas de visão computacional sistemas de visão computacional utilizados em estradas públicas.
Segurança biométrica: Muitas instalações e dispositivos de segurança utilizam reconhecimento facial para controlo de acesso. Os óculos adversários ou os padrões impressos podem ser concebidos para perturbar o processo de extração de caraterísticas, permitindo que um permitindo a um utilizador não autorizado contornar a segurança ou fazer-se passar por um indivíduo específico.

Defesas e robustez

A defesa contra estas ameaças é uma componente essencial da segurança da IA. Quadros como o MITRE ATLAS fornecem uma base de conhecimento das tácticas dos adversários para ajudar os programadores a a ajudar os programadores a reforçar os seus sistemas. Uma estratégia de defesa primária é o Treino Adversário, em que são gerados exemplos adversários adversários são gerados e adicionados aos dados de treino. Isto Isto força o modelo a aprender a ignorar pequenas perturbações.

Outro método eficaz é o aumento de dados. Ao introduzindo ruído, cortes distintos ou efeitos de mosaico durante o treino, o modelo generaliza melhor e torna-se menos frágil. O Quadro de Gestão de Riscos de IA do NIST salienta estes procedimentos de teste e validação para mitigar os riscos de segurança.

Distinção de conceitos relacionados

É importante distinguir os ataques adversários de termos semelhantes no panorama da segurança:

Ataques adversários vs. envenenamento de dados: Enquanto os ataques adversários manipulam as entradas no momento da inferência para enganar um modelo treinado, envenenamento de dados envolve envolve a corrupção do conjunto de dados antes do início do treinamento, comprometendo a integridade fundamental do modelo.
Ataques de Adversários vs. Injeção Rápida: Os ataques adversários visam normalmente dados numéricos ou visuais dados numéricos ou visuais em modelos discriminativos. Em contrapartida, injeção imediata é específica para modelos de linguagem de grande dimensão (LLMs), em que instruções de texto maliciosas substituem a programação da IA.

Reforço da robustez do modelo

O seguinte snippet Python demonstra como aplicar o aumento pesado durante o treino com Ultralytics YOLO11. Embora isto não gere ataques, utilizando técnicas como MixUp e Mosaic melhora significativamente a robustez do modelo contra variações de entrada e potenciais ruídos adversários.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
    data="coco8.yaml",
    epochs=50,
    mixup=0.2,  # Blends images together
    mosaic=1.0,  # Combines 4 images into 1
    fliplr=0.5,  # Randomly flips images horizontally
)

Ataques Adversariais

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Mecanismos e técnicas

Aplicações e riscos no mundo real

Defesas e robustez

Distinção de conceitos relacionados

Reforço da robustez do modelo

Leia mais nesta categoria

Futuras tendências na deteção de objectos: 7 aspectos fundamentais a ter em conta

Melhorar a reidentificação de veículos com modelos Ultralytics YOLO

Melhorar a previsão de colisões com os modelos Ultralytics YOLO

Junte-se à comunidade Ultralytics