Glosario

Ataques Adversarios

Descubre el impacto de los ataques de adversarios en los sistemas de IA, sus tipos, ejemplos del mundo real y estrategias de defensa para mejorar la seguridad de la IA.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los ataques de adversarios representan un importante reto de seguridad en la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM). Estos ataques consisten en crear deliberadamente entradas maliciosas, conocidas como ejemplos adversarios, diseñadas para engañar a los modelos de ML y hacer que realicen predicciones o clasificaciones incorrectas. Estas entradas a menudo contienen perturbaciones sutiles -cambios casi imperceptibles para los humanos- pero suficientes para engañar al modelo objetivo, poniendo de manifiesto vulnerabilidades incluso en sistemas de última generación como los modelos de aprendizaje profundo.

Cómo funcionan los ataques adversarios

La idea central de los ataques adversarios es explotar la forma en que los modelos aprenden y toman decisiones. Los modelos, especialmente los complejos como las Redes Neuronales (NN), aprenden patrones a partir de grandes cantidades de datos. Los atacantes aprovechan los conocimientos sobre el modelo (ataques de caja blanca) u observan su comportamiento de entrada-salida (ataques de caja negra) para encontrar pequeños cambios en una entrada que empujarán la decisión del modelo más allá de un límite, provocando un error. Por ejemplo, alterar ligeramente los píxeles de una imagen o las palabras de una frase puede cambiar drásticamente el resultado del modelo, aunque a un observador humano le parezca normal.

Ejemplos y aplicaciones reales

Los ataques adversarios plantean riesgos tangibles en diversas aplicaciones de la IA:

  1. Visión por ordenador (VC): En la detección de objetos, un atacante podría colocar pegatinas cuidadosamente diseñadas en una señal de stop, provocando que el sistema de visión de un vehículo autónomo, utilizando potencialmente modelos como Ultralytics YOLOlo clasifique erróneamente como una señal de límite de velocidad o no lo detecte por completo. Esto tiene graves implicaciones para la seguridad en las soluciones de IA en automoción. Del mismo modo, los sistemas de reconocimiento facial pueden ser engañados por patrones adversos impresos en gafas o ropa.
  2. Procesamiento del Lenguaje Natural (PLN): Los filtros de spam pueden eludirse insertando caracteres o sinónimos sutilmente alterados en los correos electrónicos maliciosos, engañando al clasificador. Los sistemas de moderación de contenidos que realizan análisis de sentimientos pueden ser eludidos de forma similar, permitiendo que se cuelen contenidos dañinos.
  3. Análisis de imágenes médicas: El ruido adverso añadido a las exploraciones médicas podría dar lugar a diagnósticos erróneos, por ejemplo, haciendo que un modelo no detecte un tumor o identifique falsamente uno benigno como maligno, lo que repercute en la IA en la Asistencia Sanitaria.

Tipos de ataques adversarios

Existen varios métodos para generar ejemplos adversarios, entre ellos

  • Método del Gradiente Rápido de Señales (FGSM): Un método sencillo y rápido que utiliza el gradiente de la función de pérdida con respecto a la entrada para crear perturbaciones.
  • Descenso Gradiente Proyectado (PGD): Un método iterativo, generalmente más potente que el FGSM, que da múltiples pasos pequeños para encontrar perturbaciones eficaces.
  • Ataques Carlini & Wagner (C&W): Una familia de ataques basados en la optimización, a menudo muy eficaces pero computacionalmente más intensivos.

Defensas contra ataques adversarios

Proteger los modelos de IA implica varias estrategias de defensa:

Ataques Adversarios vs. Otras Amenazas a la Seguridad de la IA

Los ataques adversarios se dirigen específicamente a la integridad de la toma de decisiones del modelo en el momento de la inferencia, manipulando las entradas. Se diferencian de otras amenazas a la seguridad de la IA descritas en marcos como el OWASP AI Security Top 10:

  • Envenenamiento de datos: Consiste en corromper los datos de entrenamiento para comprometer el modelo durante su fase de aprendizaje, creando puertas traseras o degradando el rendimiento.
  • Inversión/extracción del modelo: Ataques dirigidos a robar el propio modelo o información sensible incorporada en él, violando la propiedad intelectual o la privacidad de los datos.
  • Sesgo algorítmico: Aunque también es una preocupación crítica relacionada con la ética de la IA, el sesgo suele deberse a datos sesgados o suposiciones erróneas, que conducen a resultados injustos, más que a la manipulación maliciosa de los datos durante la inferencia. Las buenas prácticas de seguridad de los datos son cruciales para mitigar diversas amenazas.

Futuro de los Ataques y Defensas Adversarios

El campo del ML adversario es una carrera armamentística dinámica, en la que surgen continuamente nuevos ataques y defensas. La investigación se centra en desarrollar ataques más sofisticados (por ejemplo, ataques físicamente realizables, ataques a diferentes modalidades) y defensas robustas de aplicación universal. Comprender estas amenazas en evolución es fundamental para construir sistemas de aprendizaje profundo fiables. La incorporación de los principios de la IA explicable (XAI ) puede ayudar a comprender las vulnerabilidades de los modelos, al tiempo que la adhesión a una sólida ética de la IA guía el desarrollo responsable. Organizaciones como el NIST y empresas como Google y Microsoft contribuyen activamente con investigaciones y directrices. La vigilancia y la investigación continuas garantizan modelos como Ultralytics YOLO11 mantengan una alta precisión y fiabilidad en el despliegue en el mundo real. Explora los completos tutoriales de Ultralytics para conocer las mejores prácticas en la formación y despliegue seguros de modelos.

Leer todo