Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Ataques Adversarios

Descubra el impacto de los ataques adversarios en los sistemas de IA, sus tipos, ejemplos del mundo real y estrategias de defensa para mejorar la seguridad de la IA.

Los ataques de adversarios son una técnica sofisticada utilizada para engañar modelos de aprendizaje automático introduciendo sutiles, perturbaciones intencionadas en los datos de entrada. Estas modificaciones, a menudo imperceptibles para el ojo humano, manipulan las operaciones matemáticas de una dentro de una red neuronal, haciendo que predicciones de alta confianza pero incorrectas. A medida que inteligencia artificial se cada vez más integrada en sistemas críticos, comprender estas vulnerabilidades es esencial para garantizar que el despliegue de modelos siga siendo seguro y fiable. el despliegue de modelos siga siendo seguro y fiable.

Mecanismos y técnicas

El principio básico de un ataque adversario es identificar los "puntos ciegos" en el límite de decisión de un modelo. En el aprendizaje profundo, los modelos aprenden a classify los datos optimizando los pesos del modelo para minimizar el error. Los atacantes se aprovechan de esto calculando los cambios precisos necesarios para empujar una entrada a través de un umbral de clasificación. En ejemplo, el método de signo gradiente rápido (FGSM), introducido por introducido por investigadores como Ian Goodfellow, ajusta los valores de los píxeles de entrada en la dirección que maximiza la función de pérdida, creando rápidamente un ejemplo adverso.

Los ataques se clasifican generalmente por el nivel de información de que dispone el atacante:

  • Ataques de caja blanca: El atacante tiene pleno acceso a la arquitectura y los parámetros del modelo. Esta Esto permite realizar cálculos precisos para engañar a capas específicas, a menudo poniendo a prueba los límites del sesgo algorítmico. del sesgo algorítmico.
  • Ataques de caja negra: El atacante no tiene conocimiento interno e interactúa con el modelo sólo a través de entradas y salidas, similar a un motor de motor de inferencia estándar. Estos ataques suelen basarse en transferibilidad, donde un ejemplo que engaña a un modelo es probable que engañe a otro.

Aplicaciones y riesgos en el mundo real

Las implicaciones de los ataques de adversarios van mucho más allá de la investigación académica y plantean verdaderos riesgos para las infraestructuras críticas para la seguridad. críticas para la seguridad.

  1. Conducción autónoma: En el campo de la IA en automoción, los sistemas de percepción visual se basan en la detección de objetos para señales de tráfico. Los investigadores han demostrado que la colocación de pegatinas específicas en una señal de stop puede hacer que un vehículo autónomo la clasifique erróneamente como señal de tráfico. vehículo autónomo la clasifique erróneamente como una señal de límite de velocidad. Este tipo de ataque físico pone de manifiesto la necesidad de una robustez extrema en los sistemas de visión por ordenador utilizados en la vía pública. sistemas de visión por ordenador utilizados en la vía pública.
  2. Seguridad biométrica: Muchas instalaciones y dispositivos de seguridad utilizan reconocimiento facial para el control de acceso. Se pueden diseñar gafas o patrones impresos adversos para perturbar el proceso de extracción de rasgos. proceso de extracción de características un usuario no autorizado eludir la seguridad o hacerse pasar por una persona concreta.

Defensas y robustez

La defensa contra estas amenazas es un componente clave de la seguridad de la IA. Marcos como el MITRE ATLAS proporcionan una base de conocimientos sobre las tácticas de los adversarios para ayudar a los desarrolladores a endurecer sus sistemas. endurecer sus sistemas. Una estrategia de defensa primaria es el entrenamiento de adversarios, en el que se generan ejemplos de adversarios y se añaden a los datos de entrenamiento. adversos y se añaden a los datos de entrenamiento. Este Esto obliga al modelo a aprender a ignorar pequeñas perturbaciones.

Otro método eficaz es el aumento de datos. Mediante introduciendo ruido, recortes distintos o efectos de mosaico durante el entrenamiento, el modelo se generaliza mejor y se vuelve menos frágil. El NIST AI Risk Management Framework hace hincapié en estos procedimientos de prueba y validación para mitigar los riesgos de seguridad.

Distinción de conceptos afines

Es importante distinguir los ataques de adversarios de términos similares en el panorama de la seguridad:

  • Ataques de adversarios frente a envenenamiento de datos: Mientras que los ataques adversarios manipulan las entradas en el momento de la inferencia para engañar a un modelo entrenado, el envenenamiento de datos implica corromper el conjunto de datos antes de que comience el entrenamiento, comprometiendo la integridad fundacional del modelo.
  • Ataques Adversarios vs. Inyección Inmediata: Los ataques de adversarios suelen tener como objetivo datos numéricos o visuales en modelos discriminatorios. en modelos discriminatorios. Por el contrario, la inyección puntual es específica de grandes modelos de lenguaje (LLM), en los que instrucciones de texto maliciosas anulan la programación de la IA.

Reforzar la solidez del modelo

El siguiente fragmento de Python muestra cómo aplicar un aumento considerable durante el entrenamiento con Ultralytics YOLO11. Aunque esto no genera ataques la utilización de técnicas como MixUp y Mosaic mejora significativamente la robustez del modelo frente a variaciones de entrada y y el posible ruido adverso.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
    data="coco8.yaml",
    epochs=50,
    mixup=0.2,  # Blends images together
    mosaic=1.0,  # Combines 4 images into 1
    fliplr=0.5,  # Randomly flips images horizontally
)

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora