Glossário

Ataques adversários

Descobre o impacto dos ataques adversários nos sistemas de IA, os seus tipos, exemplos do mundo real e estratégias de defesa para melhorar a segurança da IA.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os ataques adversários representam um desafio de segurança significativo na Inteligência Artificial (IA) e na Aprendizagem Automática (AM). Estes ataques envolvem a criação deliberada de entradas maliciosas, conhecidas como exemplos adversários, concebidas para enganar os modelos de ML e levá-los a fazer previsões ou classificações incorrectas. Estas entradas contêm frequentemente perturbações subtis - alterações quase imperceptíveis para os seres humanos - mas suficientes para enganar o modelo visado, destacando vulnerabilidades mesmo em sistemas de ponta, como os modelos de aprendizagem profunda.

Como funcionam os ataques adversários

A ideia central dos ataques adversários é explorar a forma como os modelos aprendem e tomam decisões. Os modelos, especialmente os complexos como as Redes Neuronais (NN), aprendem padrões a partir de grandes quantidades de dados. Os atacantes aproveitam o conhecimento sobre o modelo (ataques de caixa branca) ou observam o seu comportamento de entrada-saída (ataques de caixa preta) para encontrar pequenas alterações a uma entrada que empurrarão a decisão do modelo para além de um limite, conduzindo a um erro. Por exemplo, alterar ligeiramente os pixéis de uma imagem ou as palavras de uma frase pode alterar drasticamente o resultado do modelo, embora pareça normal para um observador humano.

Exemplos e aplicações do mundo real

Os ataques adversários representam riscos tangíveis em várias aplicações de IA:

  1. Visão por computador (CV): Na deteção de objectos, um atacante pode colocar autocolantes cuidadosamente concebidos num sinal de stop, fazendo com que o sistema de visão de um veículo autónomo, potencialmente utilizando modelos como Ultralytics YOLOclassifica-o erradamente como um sinal de limite de velocidade ou não o detecta completamente. Isto tem sérias implicações para a segurança nas soluções de IA no sector automóvel. Da mesma forma, os sistemas de reconhecimento facial podem ser enganados por padrões adversos impressos em óculos ou roupas.
  2. Processamento de linguagem natural (NLP): Os filtros de spam podem ser contornados através da inserção de caracteres ou sinónimos subtilmente alterados em mensagens de correio eletrónico maliciosas, enganando o classificador. Os sistemas de moderação de conteúdos que efectuam análises de sentimentos podem ser contornados de forma semelhante, permitindo a passagem de conteúdos nocivos.
  3. Análise de imagens médicas: O ruído adverso adicionado aos exames médicos pode levar a diagnósticos incorrectos, por exemplo, fazendo com que um modelo não detecte um tumor ou identifique falsamente um tumor benigno como maligno, o que tem impacto na IA nos cuidados de saúde.

Tipos de ataques adversários

Existem vários métodos para gerar exemplos contraditórios, incluindo:

  • Método do sinal de gradiente rápido (FGSM): Um método simples e rápido que utiliza o gradiente da função de perda em relação à entrada para criar perturbações.
  • Descida do Gradiente Projetado (PGD): Um método iterativo, geralmente mais potente do que o FGSM, que dá vários pequenos passos para encontrar perturbações efectivas.
  • Ataques Carlini & Wagner (C&W): Uma família de ataques baseados na otimização, muitas vezes altamente eficazes mas computacionalmente mais intensivos.

Defesas contra ataques adversários

A proteção dos modelos de IA envolve várias estratégias de defesa:

  • Treino contraditório: Aumenta os dados de treino com exemplos adversários para tornar o modelo mais robusto.
  • Destilação defensiva: Treina um modelo nas saídas de probabilidade de outro modelo robusto treinado na mesma tarefa.
  • Pré-processamento/Transformação de dados: Aplicar técnicas como a suavização ou o aumento de dados durante o pré-processamento de dados para remover potencialmente o ruído contraditório antes de alimentar o modelo com a entrada.
  • Conjuntos de modelos: Combina as previsões de vários modelos para melhorar a robustez.
  • Conjuntos de ferramentas especializadas: Usa bibliotecas como a IBM Adversarial Robustness Toolbox para testar a robustez do modelo e implementar defesas. Plataformas como o Ultralytics HUB podem ajudar a gerir sistematicamente conjuntos de dados e a acompanhar experiências durante o desenvolvimento de modelos robustos.

Ataques Adversários vs. Outras Ameaças à Segurança da IA

Os ataques adversários visam especificamente a integridade da tomada de decisões do modelo no momento da inferência, manipulando as entradas. São diferentes de outras ameaças à segurança da IA descritas em estruturas como o OWASP AI Security Top 10:

  • Envenenamento de dados: Trata-se de corromper os dados de treino para comprometer o modelo durante a sua fase de aprendizagem, criando backdoors ou degradando o desempenho.
  • Inversão/extração de modelos: Ataques destinados a roubar o próprio modelo ou informações sensíveis nele incorporadas, violando a propriedade intelectual ou a privacidade dos dados.
  • Preconceito algorítmico: Embora também seja uma preocupação crítica relacionada com a ética da IA, o preconceito resulta normalmente de dados distorcidos ou de suposições erradas, levando a resultados injustos, em vez de manipulação maliciosa de dados na inferência. Boas práticas de segurança de dados são cruciais para mitigar várias ameaças.

Futuro dos ataques e defesas adversários

O domínio do ML contraditório é uma corrida ao armamento dinâmica, com o aparecimento contínuo de novos ataques e defesas. A investigação centra-se no desenvolvimento de ataques mais sofisticados (por exemplo, ataques fisicamente realizáveis, ataques a diferentes modalidades) e defesas robustas e universalmente aplicáveis. Compreender estas ameaças em evolução é fundamental para criar sistemas de aprendizagem profunda fiáveis. A incorporação de princípios da IA explicável (XAI) pode ajudar a compreender as vulnerabilidades do modelo, ao mesmo tempo que a adesão a uma forte ética de IA orienta o desenvolvimento responsável. Organizações como o NIST e empresas como a Google e a Microsoft contribuem ativamente com investigação e orientações. A vigilância e a investigação contínuas garantem modelos como o Ultralytics YOLO11 mantenham uma elevada precisão e fiabilidade na implementação no mundo real. Explora os tutoriais abrangentesUltralytics para conheceres as melhores práticas de formação e implementação de modelos seguros.

Lê tudo