Sesgo del Conjunto de Datos
Aprenda a identificar y mitigar el sesgo del conjunto de datos en la IA para garantizar modelos de aprendizaje automático justos, precisos y fiables para aplicaciones del mundo real.
El sesgo del conjunto de datos se refiere a un error sistemático o desequilibrio en la información utilizada para entrenar
los modelos de aprendizaje automático (ML), lo que provoca que el
sistema resultante refleje estos sesgos en sus predicciones. En el campo de la
visión por computadora (CV), los modelos actúan como motores de reconocimiento de patrones
que dependen totalmente de sus entradas. Si los
datos de entrenamiento no son representativos del entorno real
al que se enfrentará el modelo, la IA «heredará» estos puntos ciegos. Este fenómeno suele conducir
a una mala generalización, en la que un modelo obtiene puntuaciones altas durante las pruebas, pero falla significativamente cuando se implementa para
la inferencia en tiempo real en diversos escenarios.
Fuentes comunes de sesgo
El sesgo puede infiltrarse en un conjunto de datos en varias etapas del ciclo de vida del desarrollo, a menudo derivado de decisiones humanas o
problemas de disponibilidad de datos.
-
Sesgo de selección: se produce cuando los
datos recopilados no representan aleatoriamente a la población objetivo. Por ejemplo, crear un
conjunto de datos de reconocimiento facial utilizando principalmente imágenes
de famosos puede sesgar el modelo hacia el maquillaje intenso y la iluminación profesional, lo que provocaría que fallara con las imágenes cotidianas de las
cámaras web.
-
Errores de etiquetado: La subjetividad durante el
etiquetado de datos puede introducir prejuicios humanos. Si
los anotadores clasifican erróneamente de forma sistemática objetos ambiguos debido a la falta de directrices claras, el modelo trata estos
errores como verdad fundamental.
-
Sesgo de representación:
Incluso si se seleccionan aleatoriamente, los grupos minoritarios pueden quedar estadísticamente eclipsados por la clase mayoritaria. En la
detección de objetos, un conjunto de datos con 10 000 imágenes
de coches, pero solo 100 imágenes de bicicletas, dará lugar a un modelo sesgado hacia la detección de coches.
Ejemplos reales de aplicaciones de IA
Las consecuencias del sesgo de los conjuntos de datos van más allá de las métricas académicas, ya que afectan directamente a la seguridad y fiabilidad de la
IA en la industria.
-
Conducción autónoma: Los sistemas de conducción autónoma se basan en
las pilas de percepción de los vehículos autónomos para
identificar peligros. Si un modelo se entrena principalmente con datos recopilados en la soleada California, puede mostrar un grave
sesgo frente a condiciones de nieve o lluvia. Esta falta de diversidad ambiental crea riesgos de seguridad cuando el vehículo
opera en climas diferentes, lo que requiere una rigurosa
evaluación del modelo en diversos ámbitos climáticos
.
-
Diagnóstico médico: En
la IA aplicada a la asistencia sanitaria, cada vez se utilizan más modelos
para el análisis de imágenes médicas con el fin de detect afecciones cutáneas
. Si el conjunto de datos de entrenamiento se compone principalmente de tonos de piel más claros, la precisión diagnóstica del modelo
puede disminuir significativamente en el caso de pacientes con piel más oscura
. Esta disparidad pone de relieve la necesidad ética de crear conjuntos de datos inclusivos para garantizar una atención equitativa a los pacientes
.
Estrategias de mitigación
Los desarrolladores pueden emplear varias técnicas para identificar y reducir los sesgos, lo que garantiza un cumplimiento más sólido de la
ética de la IA.
-
Aumento de datos: mediante la modificación artificial de las imágenes de entrenamiento (por ejemplo, rotándolas, escalándolas o
ajustando su brillo), los ingenieros pueden simular una gama más amplia de condiciones.
El aumento de datos ayuda al modelo a aprender
características que son invariables ante detalles incidentales como la orientación o la iluminación.
-
Datos sintéticos: cuando los datos del mundo real para casos extremos son escasos,
los datos sintéticos generados por motores de juegos o
modelos generativos pueden llenar los vacíos, equilibrando la distribución de clases.
-
Auditoría de equidad: El uso de herramientas como
AI Fairness 360 de IBM permite a los equipos calcular métricas
que miden específicamente el rendimiento del modelo en diferentes grupos protegidos o subpoblaciones.
Ejemplo de código: Mitigación del sesgo de orientación
El siguiente ejemplo muestra cómo aplicar el aumento durante el entrenamiento con el modelo recomendado
Ultralytics . Al habilitar el giro horizontal, el modelo aprende a detect objetos
independientemente de la orientación que tengan, lo que reduce el sesgo de orientación.
from ultralytics import YOLO
# Load the YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")
# Train with specific augmentations to improve robustness
# 'fliplr' (flip left-right) helps mitigate bias if objects only face one way in the raw data
results = model.train(
data="coco8.yaml",
epochs=10,
fliplr=0.5, # 50% probability of flipping the image horizontally
hsv_v=0.4, # Vary brightness to handle lighting bias
)
Sesgo del conjunto de datos frente a términos relacionados
Es útil distinguir el sesgo de los conjuntos de datos de conceptos similares en el
panorama de la IA responsable
:
-
vs. Sesgo algorítmico: El sesgo del conjunto de datos
se centra en los datos; implica que las entradas (ingredientes) son defectuosas. El sesgo algorítmico se centra en el modelo; surge
del diseño del propio algoritmo o del
algoritmo de optimización utilizado, que podría
dar prioridad a las clases mayoritarias para maximizar las métricas generales a expensas de los grupos minoritarios.
-
vs. Sesgo en la IA: Es el
término general que engloba todas las formas de prejuicio en la inteligencia artificial, incluyendo el sesgo de los conjuntos de datos,
el sesgo algorítmico y el sesgo cognitivo introducido por los desarrolladores humanos.
Abordar el sesgo de los conjuntos de datos es un proceso continuo que requiere vigilancia en la
recopilación de datos y el cumplimiento de
marcos como el
Marco de Gestión de Riesgos de IA del NIST.