Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Equipo rojo de IA

Descubre cómo el «AI Red Teaming» protege los sistemas de IA frente a vulnerabilidades y sesgos. Aprende a utilizar Ultralytics para someter a pruebas de estrés los modelos de visión y lograr la máxima fiabilidad.

El «red teaming» de IA es una práctica de seguridad estructurada y proactiva en la que equipos especializados simulan ataques hostiles contra sistemas de inteligencia artificial (IA) para detectar vulnerabilidades ocultas, sesgos y riesgos de seguridad antes de que lleguen a la fase de producción. Tomado originalmente de la ciberseguridad tradicional, el «red teaming» de IA ha evolucionado para abordar los comportamientos probabilísticos únicos y las enormes superficies de ataque de los modelos modernos de aprendizaje automático (ML), como los grandes modelos de lenguaje (LLM) y las complejas redes de visión artificial (CV). Al someter los modelos a un intenso escrutinio de casos extremos, las organizaciones pueden garantizar que sus sistemas funcionen de forma fiable bajo estrés real y evitar fallos catastróficos.

Pruebas de simulación de ataques con IA frente a ataques adversarios y seguridad de la IA

Aunque a menudo se tratan conjuntamente, el «AI Red Teaming» es un proceso diferenciado dentro del panorama más amplio de la seguridad de la IA. La seguridad de la IA es el objetivo general de crear sistemas fiables, éticos y alineados. Los ataques adversarios son técnicas específicas —como inyecciones de prompts o manipulaciones de píxeles— que se utilizan para engañar a los modelos. El «AI Red Teaming» es la metodología formalizada y el ejercicio operativo que consiste en utilizar activamente esos ataques adversarios y la resolución creativa de problemas para auditar las defensas de un modelo. Constituye un paso fundamental antes de la implementación del modelo y continúa a través de la supervisión continua del modelo para detectar amenazas emergentes.

Importancia y marcos

Las pruebas estándar de aprendizaje profundo (DL) suelen basarse en conjuntos de datos conocidos con métricas binarias de «aprobado/suspenso», que no logran captar la naturaleza dinámica de la IA. El «red teaming» se centra en descubrir nuevos modos de fallo y reducir los sesgos en la IA. Los líderes del sector se adhieren a directrices establecidas como el Marco de Gestión de Riesgos de IA del NIST (AI RMF), que exige la realización de pruebas adversarias para evaluar los sistemas en situaciones de estrés. Otros recursos fundamentales incluyen la matriz MITRE ATLAS para modelar amenazas específicas de la IA, y la Guía de Red Teaming de OWASP GenAI para proteger los modelos generativos. Investigadores de instituciones como el Centro de Seguridad y Tecnologías Emergentes (CSET) publican continuamente mejores prácticas actualizadas, mientras que los laboratorios hacen hincapié en las pruebas en políticas como la Política de EscaladoAnthropic y las iniciativas de seguridad de OpenAI.

Aplicaciones en el mundo real

Las pruebas de seguridad con IA (AI Red Teaming) son fundamentales en entornos de alto riesgo en los que los fallos pueden provocar daños importantes.

  • Vehículos autónomos: En el ámbito de las tecnologías de conducción autónoma, los equipos rojos simulan situaciones de riesgo poco habituales —como señales de tráfico alteradas de forma maliciosa, condiciones meteorológicas extremas o comportamientos inesperados de los peatones— para poner a prueba la solidez del sistema de detección de objetos. Esto garantiza que el vehículo circule con seguridad en condiciones que no se recogen en sus datos de entrenamiento estándar.
  • Diagnóstico médico: antes de implementar un modelo de imágenes médicas, los miembros del equipo rojo pueden introducir intencionadamente ruido, artefactos o perturbaciones adversarias simuladas en radiografías o resonancias magnéticas. Estas pruebas adversarias garantizan que la herramienta de diagnóstico no detecte tumores inexistentes ni pase por alto anomalías críticas al analizar imágenes de baja calidad procedentes de equipos hospitalarios antiguos.

Pruebas de robustez de la IA para la visión

En las aplicaciones de visión artificial, el «red teaming» suele consistir en aplicar distorsiones programadas para comprobar si un modelo mantiene una percepción precisa. Para optimizar este flujo de trabajo y gestionar de forma eficiente los conjuntos de datos de casos extremos, los equipos suelen utilizar la Ultralytics .

El siguiente Python muestra una simulación básica de red teaming en la que se oscurece drásticamente una imagen para poner a prueba la resistencia de Ultralytics , el último estándar en IA de visión orientada al borde.

import cv2
from ultralytics import YOLO

# Load the Ultralytics YOLO26 model for vision AI red teaming
model = YOLO("yolo26n.pt")

# Simulate an adversarial/edge-case condition by severely altering image lighting
image = cv2.imread("image.jpg")
darkened_image = cv2.convertScaleAbs(image, alpha=0.3, beta=0)

# Evaluate if the model's predictions fail or remain robust under stress
results = model(darkened_image)
print(f"Model detected {len(results[0].boxes)} objects in the stressed condition.")

La integración de ejercicios estructurados de «red teaming», con el apoyo de herramientas especializadas como Microsoft y los conocimientos de líderes en seguridad como Vectra AI y Group-IB, garantiza que las organizaciones implementen sistemas de IA que no solo sean de gran precisión, sino también fundamentalmente seguros y resistentes frente a amenazas sofisticadas del mundo real.

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático