Glosario

Sesgo del Conjunto de Datos

Aprenda a identificar y mitigar el sesgo del conjunto de datos en la IA para garantizar modelos de aprendizaje automático justos, precisos y fiables para aplicaciones del mundo real.

El sesgo del conjunto de datos se refiere a un error sistemático o desequilibrio en la información utilizada para entrenar los modelos de aprendizaje automático. para entrenar modelos de aprendizaje automático sistemas que no reflejan con exactitud el entorno real al que están destinados. En el contexto de la visión por ordenador (CV), los modelos aprenden a reconocer patrones basándose exclusivamente en sus datos de entrenamiento. Si Si esta base está sesgada -por ejemplo, por una representación excesiva de una condición demográfica o ambiental específica- el modelo "heredará" estos puntos ciegos. el modelo "heredará" esos puntos ciegos. Este fenómeno es una de las principales causas de la generalización deficiente, cuando un sistema de IA obtiene buenos resultados en las pruebas, pero no en las pruebas. sistema de IA funciona bien en las pruebas, pero falla cuando se despliega para inferencia en tiempo real en diversos escenarios.

Fuentes comunes de sesgo en los conjuntos de datos

Entender dónde se origina el prejuicio es el primer paso hacia la prevención. Suele aparecer en las primeras fases de la la recogida y anotación de datos de recogida y anotación de datos:

Sesgo de selección: se produce cuando los datos recopilados no representan a la población objetivo al azar. Por ejemplo, recoger imágenes para un sistema de reconocimiento facial sólo de estudiantes universitarios sesgaría la distribución de edades, lo que provocaría que el modelo funcionara peor con los adultos de más edad.
Sesgo de representación: aunque los datos se recojan de forma amplia, algunos grupos pueden estar significativamente subrepresentados. infrarrepresentados. Un conjunto de datos de referencia ciudades europeas puede no analizar con precisión las infraestructuras de metrópolis asiáticas o africanas debido a los distintos estilos arquitectónicos.
Sesgo de etiquetado: la subjetividad etiquetado de los datos puede introducir prejuicios humanos. Si los anotadores de Si los anotadores clasifican erróneamente ciertos objetos debido a la ambigüedad o a la falta de directrices claras, el modelo aprenderá estos errores como verdad de base. aprenderá estos errores como verdad de base.

Ejemplos reales e impacto

Las consecuencias de los sesgos en los conjuntos de datos pueden ir desde inconvenientes menores a fallos de seguridad críticos en industrias de alto riesgo. de alto riesgo.

Diagnóstico médico: En la asistencia sanitaria, se utilizan modelos para detect enfermedades como el cáncer de piel. Si el conjunto de datos de entrenamiento está formado principalmente por imágenes de tonos de piel claros, la precisión del modelo disminuye considerablemente al analizar a los pacientes. precisión del modelo disminuye considerablemente pacientes de piel más oscura. Esta disparidad pone de relieve la importancia de contar con conjuntos de datos de análisis de imágenes una atención al paciente equitativa.
Conducción autónoma: Los coches de conducción autónoma dependen en gran medida de detección de objetos para identificar obstáculos. Si un modelo se entrena predominantemente con datos recogidos en climas soleados y secos, puede que no detect peligros cuando nieva o llueve mucho. Este es un ejemplo clásico de cómo la escasa variabilidad ambiental crea peligrosas lagunas de seguridad en los vehículos autónomos. brechas de seguridad en los vehículos autónomos.

Sesgo del conjunto de datos vs. Sesgo algorítmico

Aunque a menudo se discuten juntos, es útil distinguir el sesgo del conjunto de datos del sesgo algorítmico. sesgo algorítmico.

El sesgo del conjunto de datos se centra en los datos; implica que los insumos (ingredientes) son defectuosos. El modelo puede estar aprender perfectamente, pero lo hace a partir de una realidad distorsionada.
El sesgo algorítmico se centra en el modelo; surge del diseño del propio algoritmo o del algoritmo de optimización utilizado. algoritmo de optimización utilizado. Por ejemplo un modelo puede inclinarse matemáticamente a dar prioridad a las clases mayoritarias para maximizar la precisión global, ignorando los casos extremos. los casos extremos.

Ambos contribuyen al problema más amplio de la parcialidad en la IA, y es fundamental para la ética de la IA y y la equidad en la IA.

Estrategias de mitigación

Los desarrolladores pueden emplear varias técnicas para identificar y reducir los sesgos. La utilización de datos sintéticos puede ayudar a colmar lagunas cuando los datos del mundo real. Además, una evaluación evaluación de modelos que desglosa por subgrupos (en lugar de limitarse a una media global) puede revelar deficiencias ocultas.

Otro método eficaz es el aumento de datos. En modificando artificialmente las imágenes de entrenamiento -cambiando los colores, la rotación o la iluminación-, los desarrolladores pueden forzar al modelo a aprender características más sólidas en lugar de basarse en detalles incidentales sesgados. características más sólidas en lugar de basarse en detalles incidentales sesgados.

El siguiente ejemplo muestra cómo aplicar el aumento durante el entrenamiento con Ultralytics YOLO11 para ayudar a mitigar el sesgo relacionado con la orientación del objeto o las condiciones de iluminación:

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
    data="coco8.yaml",
    epochs=5,
    fliplr=0.5,  # 50% probability of flipping image horizontally
    hsv_v=0.4,  # Vary image brightness (value) by +/- 40%
)

Mediante la gestión proactiva de la calidad de los conjuntos de datos y el uso de herramientas como hiperparámetros de aumento, los ingenieros pueden construir IA responsable responsables que funcionen de forma fiable para todos. Para más información sobre métricas de equidad, recursos como AI Fairness 360 de IBM ofrecen excelentes conjuntos de herramientas de código abierto.

Sesgo del Conjunto de Datos

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Fuentes comunes de sesgo en los conjuntos de datos

Ejemplos reales e impacto

Sesgo del conjunto de datos vs. Sesgo algorítmico

Estrategias de mitigación

Leer más en esta categoría

Tendencias futuras en la detección de objetos: 7 aspectos clave a tener en cuenta

Mejora de la reidentificación de vehículos con los modelosYOLO Ultralytics

Mejora de la predicción de colisiones con los modelosYOLO Ultralytics

Únase a la comunidad Ultralytics