Aprenda a identificar y mitigar el sesgo del conjunto de datos en la IA para garantizar modelos de aprendizaje automático justos, precisos y fiables para aplicaciones del mundo real.
El sesgo del conjunto de datos se refiere a un error sistemático o desequilibrio en la información utilizada para entrenar los modelos de aprendizaje automático. para entrenar modelos de aprendizaje automático sistemas que no reflejan con exactitud el entorno real al que están destinados. En el contexto de la visión por ordenador (CV), los modelos aprenden a reconocer patrones basándose exclusivamente en sus datos de entrenamiento. Si Si esta base está sesgada -por ejemplo, por una representación excesiva de una condición demográfica o ambiental específica- el modelo "heredará" estos puntos ciegos. el modelo "heredará" esos puntos ciegos. Este fenómeno es una de las principales causas de la generalización deficiente, cuando un sistema de IA obtiene buenos resultados en las pruebas, pero no en las pruebas. sistema de IA funciona bien en las pruebas, pero falla cuando se despliega para inferencia en tiempo real en diversos escenarios.
Entender dónde se origina el prejuicio es el primer paso hacia la prevención. Suele aparecer en las primeras fases de la la recogida y anotación de datos de recogida y anotación de datos:
Las consecuencias de los sesgos en los conjuntos de datos pueden ir desde inconvenientes menores a fallos de seguridad críticos en industrias de alto riesgo. de alto riesgo.
Aunque a menudo se discuten juntos, es útil distinguir el sesgo del conjunto de datos del sesgo algorítmico. sesgo algorítmico.
Ambos contribuyen al problema más amplio de la parcialidad en la IA, y es fundamental para la ética de la IA y y la equidad en la IA.
Los desarrolladores pueden emplear varias técnicas para identificar y reducir los sesgos. La utilización de datos sintéticos puede ayudar a colmar lagunas cuando los datos del mundo real. Además, una evaluación evaluación de modelos que desglosa por subgrupos (en lugar de limitarse a una media global) puede revelar deficiencias ocultas.
Otro método eficaz es el aumento de datos. En modificando artificialmente las imágenes de entrenamiento -cambiando los colores, la rotación o la iluminación-, los desarrolladores pueden forzar al modelo a aprender características más sólidas en lugar de basarse en detalles incidentales sesgados. características más sólidas en lugar de basarse en detalles incidentales sesgados.
El siguiente ejemplo muestra cómo aplicar el aumento durante el entrenamiento con Ultralytics YOLO11 para ayudar a mitigar el sesgo relacionado con la orientación del objeto o las condiciones de iluminación:
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
data="coco8.yaml",
epochs=5,
fliplr=0.5, # 50% probability of flipping image horizontally
hsv_v=0.4, # Vary image brightness (value) by +/- 40%
)
Mediante la gestión proactiva de la calidad de los conjuntos de datos y el uso de herramientas como hiperparámetros de aumento, los ingenieros pueden construir IA responsable responsables que funcionen de forma fiable para todos. Para más información sobre métricas de equidad, recursos como AI Fairness 360 de IBM ofrecen excelentes conjuntos de herramientas de código abierto.