Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Sesgo del Conjunto de Datos

Aprenda a identificar y mitigar el sesgo del conjunto de datos en la IA para garantizar modelos de aprendizaje automático justos, precisos y fiables para aplicaciones del mundo real.

El sesgo del conjunto de datos se refiere a un error sistemático o desequilibrio en la información utilizada para entrenar los modelos de aprendizaje automático (ML), lo que provoca que el sistema resultante refleje estos sesgos en sus predicciones. En el campo de la visión por computadora (CV), los modelos actúan como motores de reconocimiento de patrones que dependen totalmente de sus entradas. Si los datos de entrenamiento no son representativos del entorno real al que se enfrentará el modelo, la IA «heredará» estos puntos ciegos. Este fenómeno suele conducir a una mala generalización, en la que un modelo obtiene puntuaciones altas durante las pruebas, pero falla significativamente cuando se implementa para la inferencia en tiempo real en diversos escenarios.

Fuentes comunes de sesgo

El sesgo puede infiltrarse en un conjunto de datos en varias etapas del ciclo de vida del desarrollo, a menudo derivado de decisiones humanas o problemas de disponibilidad de datos.

  • Sesgo de selección: se produce cuando los datos recopilados no representan aleatoriamente a la población objetivo. Por ejemplo, crear un conjunto de datos de reconocimiento facial utilizando principalmente imágenes de famosos puede sesgar el modelo hacia el maquillaje intenso y la iluminación profesional, lo que provocaría que fallara con las imágenes cotidianas de las cámaras web.
  • Errores de etiquetado: La subjetividad durante el etiquetado de datos puede introducir prejuicios humanos. Si los anotadores clasifican erróneamente de forma sistemática objetos ambiguos debido a la falta de directrices claras, el modelo trata estos errores como verdad fundamental.
  • Sesgo de representación: Incluso si se seleccionan aleatoriamente, los grupos minoritarios pueden quedar estadísticamente eclipsados por la clase mayoritaria. En la detección de objetos, un conjunto de datos con 10 000 imágenes de coches, pero solo 100 imágenes de bicicletas, dará lugar a un modelo sesgado hacia la detección de coches.

Ejemplos reales de aplicaciones de IA

Las consecuencias del sesgo de los conjuntos de datos van más allá de las métricas académicas, ya que afectan directamente a la seguridad y fiabilidad de la IA en la industria.

  1. Conducción autónoma: Los sistemas de conducción autónoma se basan en las pilas de percepción de los vehículos autónomos para identificar peligros. Si un modelo se entrena principalmente con datos recopilados en la soleada California, puede mostrar un grave sesgo frente a condiciones de nieve o lluvia. Esta falta de diversidad ambiental crea riesgos de seguridad cuando el vehículo opera en climas diferentes, lo que requiere una rigurosa evaluación del modelo en diversos ámbitos climáticos .
  2. Diagnóstico médico: En la IA aplicada a la asistencia sanitaria, cada vez se utilizan más modelos para el análisis de imágenes médicas con el fin de detect afecciones cutáneas . Si el conjunto de datos de entrenamiento se compone principalmente de tonos de piel más claros, la precisión diagnóstica del modelo puede disminuir significativamente en el caso de pacientes con piel más oscura . Esta disparidad pone de relieve la necesidad ética de crear conjuntos de datos inclusivos para garantizar una atención equitativa a los pacientes .

Estrategias de mitigación

Los desarrolladores pueden emplear varias técnicas para identificar y reducir los sesgos, lo que garantiza un cumplimiento más sólido de la ética de la IA.

  • Aumento de datos: mediante la modificación artificial de las imágenes de entrenamiento (por ejemplo, rotándolas, escalándolas o ajustando su brillo), los ingenieros pueden simular una gama más amplia de condiciones. El aumento de datos ayuda al modelo a aprender características que son invariables ante detalles incidentales como la orientación o la iluminación.
  • Datos sintéticos: cuando los datos del mundo real para casos extremos son escasos, los datos sintéticos generados por motores de juegos o modelos generativos pueden llenar los vacíos, equilibrando la distribución de clases.
  • Auditoría de equidad: El uso de herramientas como AI Fairness 360 de IBM permite a los equipos calcular métricas que miden específicamente el rendimiento del modelo en diferentes grupos protegidos o subpoblaciones.

Ejemplo de código: Mitigación del sesgo de orientación

El siguiente ejemplo muestra cómo aplicar el aumento durante el entrenamiento con el modelo recomendado Ultralytics . Al habilitar el giro horizontal, el modelo aprende a detect objetos independientemente de la orientación que tengan, lo que reduce el sesgo de orientación.

from ultralytics import YOLO

# Load the YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")

# Train with specific augmentations to improve robustness
# 'fliplr' (flip left-right) helps mitigate bias if objects only face one way in the raw data
results = model.train(
    data="coco8.yaml",
    epochs=10,
    fliplr=0.5,  # 50% probability of flipping the image horizontally
    hsv_v=0.4,  # Vary brightness to handle lighting bias
)

Sesgo del conjunto de datos frente a términos relacionados

Es útil distinguir el sesgo de los conjuntos de datos de conceptos similares en el panorama de la IA responsable :

  • vs. Sesgo algorítmico: El sesgo del conjunto de datos se centra en los datos; implica que las entradas (ingredientes) son defectuosas. El sesgo algorítmico se centra en el modelo; surge del diseño del propio algoritmo o del algoritmo de optimización utilizado, que podría dar prioridad a las clases mayoritarias para maximizar las métricas generales a expensas de los grupos minoritarios.
  • vs. Sesgo en la IA: Es el término general que engloba todas las formas de prejuicio en la inteligencia artificial, incluyendo el sesgo de los conjuntos de datos, el sesgo algorítmico y el sesgo cognitivo introducido por los desarrolladores humanos.

Abordar el sesgo de los conjuntos de datos es un proceso continuo que requiere vigilancia en la recopilación de datos y el cumplimiento de marcos como el Marco de Gestión de Riesgos de IA del NIST.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora