Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Sesgo del Conjunto de Datos

Explora las causas del sesgo en los conjuntos de datos de IA y aprende a mitigarlo. Descubre cómo utilizar la Ultralytics y Ultralytics para mejorar la imparcialidad.

El sesgo de los conjuntos de datos se produce cuando la información utilizada para entrenar los modelos de aprendizaje automático (ML) contiene errores sistemáticos o distribuciones sesgadas, lo que lleva al sistema de IA resultante a favorecer ciertos resultados sobre otros. Dado que los modelos funcionan como motores de reconocimiento de patrones, dependen totalmente de sus entradas; si los datos de entrenamiento no reflejan con precisión la diversidad del entorno del mundo real, el modelo heredará estos puntos ciegos. Este fenómeno suele dar lugar a una generalización deficiente, en la que una IA puede obtener puntuaciones altas durante las pruebas, pero falla significativamente cuando se implementa para la inferencia en tiempo real en escenarios diversos o inesperados .

Fuentes comunes de sesgo en los datos

El sesgo puede infiltrarse en un conjunto de datos en varias etapas del ciclo de vida del desarrollo, a menudo como resultado de decisiones humanas durante la recopilación o anotación.

  • Sesgo de selección: se produce cuando los datos recopilados no representan aleatoriamente a la población objetivo. Por ejemplo, crear un conjunto de datos de reconocimiento facial utilizando principalmente imágenes de famosos puede sesgar el modelo hacia el maquillaje intenso y la iluminación profesional, lo que provocaría que fallara con las imágenes cotidianas de las cámaras web.
  • Errores de etiquetado: La subjetividad durante el etiquetado de datos puede introducir prejuicios humanos. Si los anotadores clasifican erróneamente de forma sistemática objetos ambiguos debido a la falta de directrices claras, el modelo trata estos errores como verdad fundamental.
  • Sesgo de representación: Incluso si se seleccionan aleatoriamente, los grupos minoritarios pueden quedar estadísticamente eclipsados por la clase mayoritaria. En la detección de objetos, un conjunto de datos con 10 000 imágenes de coches, pero solo 100 imágenes de bicicletas, dará lugar a un modelo sesgado hacia la detección de coches.

Aplicaciones y consecuencias en el mundo real

El impacto del sesgo de los conjuntos de datos es significativo en diversas industrias, especialmente cuando los sistemas automatizados toman decisiones de alto riesgo o interactúan con el mundo físico.

En la industria automovilística, la IA en automoción se basa en cámaras para identificar peatones y obstáculos. Si un coche autónomo se entrena principalmente con datos recopilados en climas soleados y secos, puede mostrar una degradación del rendimiento cuando funciona con nieve o lluvia intensa. Este es un ejemplo clásico de que la distribución del entrenamiento no coincide con la distribución operativa, lo que conlleva riesgos para la seguridad.

Del mismo modo, en el análisis de imágenes médicas, los modelos de diagnóstico suelen entrenarse con datos históricos de pacientes. Si un modelo diseñado para detect afecciones detect se entrena con un conjunto de datos en el que predominan los tonos de piel más claros, puede mostrar una precisión significativamente menor a la hora de diagnosticar a pacientes con piel más oscura. Para abordar esta cuestión es necesario un esfuerzo concertado para seleccionar conjuntos de datos diversos que garanticen la equidad de la IA en todos los grupos demográficos.

Estrategias de mitigación

Los desarrolladores pueden reducir el sesgo de los conjuntos de datos mediante la aplicación de rigurosas estrategias de auditoría y formación avanzada. Técnicas como el aumento de datos ayudan a equilibrar los conjuntos de datos mediante la creación artificial de variaciones de ejemplos infrarrepresentados (por ejemplo, volteando, rotando o ajustando el brillo). Además, la generación de datos sintéticos puede llenar los vacíos donde los datos del mundo real son escasos o difíciles de recopilar.

Es fundamental gestionar estos conjuntos de datos de forma eficaz. Ultralytics permite a los equipos visualizar las distribuciones de clases e identificar desequilibrios antes de que comience el entrenamiento. Además, el cumplimiento de directrices como el Marco de Gestión de Riesgos de IA del NIST ayuda a las organizaciones a estructurar su enfoque para identificar y mitigar estos riesgos de forma sistemática.

Sesgo de los conjuntos de datos frente a conceptos relacionados

Es útil distinguir el sesgo del conjunto de datos de términos similares para comprender dónde se origina el error:

  • vs. Sesgo algorítmico: El sesgo del conjunto de datos se centra en los datos; implica que los «ingredientes» son defectuosos. El sesgo algorítmico se centra en el modelo; surge del diseño del propio algoritmo o del algoritmo de optimización, que podría dar prioridad a las clases mayoritarias para maximizar las métricas generales a expensas de los grupos minoritarios.
  • vs. Deriva del modelo: El sesgo del conjunto de datos es un problema estático presente en el momento del entrenamiento. La deriva del modelo (o deriva de los datos) se produce cuando los datos del mundo real cambian con el tiempo después de que se haya implementado el modelo, lo que requiere una supervisión continua del modelo.

Ejemplo de código: Aumento para reducir el sesgo

El siguiente ejemplo muestra cómo aplicar el aumento de datos durante el entrenamiento con YOLO26. Al aumentar las ampliaciones geométricas, el modelo aprende a generalizar mejor, lo que reduce potencialmente el sesgo hacia orientaciones o posiciones específicas de objetos que se encuentran en el conjunto de entrenamiento.

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora