Seguridad de la IA
Aprenda sobre la seguridad de la IA, el campo vital para prevenir daños no intencionados de los sistemas de IA. Descubra sus pilares clave, aplicaciones en el mundo real y su papel en la IA responsable.
La seguridad de la IA es un campo específico de la
Inteligencia Artificial (IA) centrado en
garantizar que los sistemas de IA funcionen de forma fiable, predecible y sin causar daños involuntarios. A medida que
los modelos de aprendizaje profundo (AD) se vuelven más autónomos
e integrados en infraestructuras críticas, las consecuencias potenciales de los fallos del sistema crecen significativamente. El
objetivo principal de la seguridad de la IA es identificar, analizar y mitigar los riesgos derivados de fallos técnicos, comportamientos
comportamientos inesperados o desajustes entre los objetivos de la IA y los valores humanos. Esta disciplina abarca una amplia gama de
de prácticas, desde pruebas rigurosas de modelos
desarrollo de garantías matemáticas para el comportamiento del sistema.
Pilares básicos de la seguridad de la IA
Para crear sistemas fiables, los investigadores e ingenieros se centran en varios pilares fundamentales que garantizan que
que garantizan que los modelos de aprendizaje automático
en condiciones variables.
-
Robustez: Un sistema robusto debe mantener su rendimiento incluso cuando se encuentra con datos inesperados o
condiciones adversas. Esto implica defenderse contra
ataques de adversarios, en los que se
para engañar a un modelo. Por ejemplo, un sistema de
sistema de visión por ordenador (CV) no debería
clasificar erróneamente una señal de stop simplemente por una pegatina o una mala iluminación.
-
Alineación: Se refiere al reto de diseñar sistemas de IA cuyos objetivos reflejen fielmente las intenciones humanas.
las intenciones humanas. La desalineación puede producirse si un modelo encuentra un "atajo" para lograr una puntuación alta en su función de pérdida, violando al mismo tiempo las restricciones de seguridad.
en su función de pérdida violando las restricciones de seguridad.
concepto ampliamente estudiado por el Center for Human-Compatible AI.
-
Interpretabilidad: También conocido como
IA explicable (XAI), este principio
hace hincapié en la creación de modelos que los humanos puedan entender. Si un sistema de toma de decisiones falla, los ingenieros deben poder
inspeccionar las ponderaciones o los mapas de activación
para diagnosticar el error y evitar que se repita.
-
Monitorización: La supervisión continua del modelo
es esencial para detect
deriva de los datos, cuando los datos que un modelo encuentra en el
mundo real divergen de sus datos de entrenamiento,
lo que puede dar lugar a predicciones erróneas.
Aplicaciones en el mundo real
La seguridad de la IA no es solo teórica; es un requisito crítico para desplegar
en los sectores de la automoción y la sanidad.
-
Conducción autónoma: Los vehículos de conducción autónoma se basan en
modelos de detección de objetos para identificar peatones
otros vehículos y obstáculos. Los protocolos de seguridad implican redundancia -utilización de LiDAR y radar junto a las cámaras- y
y la "estimación de la incertidumbre", en la que el coche reduce la velocidad o solicita la intervención humana si la IA no está segura de un objeto.
sobre un objeto. Organizaciones como Waymo publican metodologías
para validar estos sistemas de percepción.
-
Diagnóstico médico: En
análisis de imágenes médicas, una IA que
radiólogos debe maximizar la precisión y minimizar
los falsos negativos. Los mecanismos de seguridad suelen incluir un flujo de trabajo "humano en el bucle", en el que la IA solo señala los posibles problemas para que los revise el médico, en lugar de realizar el diagnóstico final de forma autónoma.
que la IA solo señala posibles problemas para que los revise el médico, en lugar de realizar un diagnóstico final de forma autónoma.
del paciente, como se destaca en
La IA en las soluciones sanitarias.
Aplicación de umbrales de seguridad en el código
Un método básico para mejorar la seguridad en el despliegue es aplicar umbrales de confianza estrictos. Al ignorar
las predicciones de baja confianza, los desarrolladores pueden evitar que un agente de IA actúe sobre datos débiles o ruidosos.
El siguiente ejemplo muestra cómo filtrar predicciones utilizando la función
Ultralytics YOLO11 de Ultralytics, garantizando que sólo se
de alta certeza.
from ultralytics import YOLO
# Load the YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Perform inference on an image with a strict confidence threshold
# This ensures the model only reports objects it is at least 70% sure about
results = model.predict("https://ultralytics.com/images/bus.jpg", conf=0.70)
# Process only the safe, high-confidence detections
for result in results:
print(f"Detected {len(result.boxes)} objects exceeding safety threshold.")
Seguridad de la IA vs. Ética de la IA
Aunque a menudo se utilizan indistintamente, estos términos se refieren a diferentes aspectos del desarrollo responsable de la IA.
desarrollo responsable de la IA.
-
La seguridad de la IA es fundamentalmente técnica. Se pregunta: "¿Funcionará este sistema como está diseñado sin
accidentes físicos". Se ocupa de la fiabilidad, el control y la prevención de errores.
la ingeniería de seguridad de la aviación civil.
-
La ética de la IA es social y moral. Se pregunta: "¿Es justo este sistema y deberíamos construirlo?".
Se centra en cuestiones como el sesgo algorítmico,
la privacidad de los datos y el impacto socioeconómico de la
la automatización. Para más información, consulte nuestro glosario sobre
Ética de la IA.
Marcos como el
NIST AI Risk Management Framework proporcionan
directrices para que las organizaciones aborden tanto los riesgos de seguridad como los éticos. A medida que los modelos evolucionan hacia la
Inteligencia Artificial General (AGI), la colaboración entre los investigadores de seguridad de institutos como el
Future of Life Institute y los desarrolladores de la industria es cada vez más vital para
para garantizar que la tecnología siga siendo beneficiosa para la humanidad.