Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Dataset Bias

Explora las causas del sesgo en los datasets en la IA y aprende a mitigar el sesgo. Descubre cómo usar la Plataforma Ultralytics y Ultralytics YOLO26 para mejorar la equidad.

El sesgo en los conjuntos de datos ocurre cuando la información utilizada para entrenar modelos de machine learning (ML) contiene errores sistemáticos o distribuciones sesgadas, lo que lleva al sistema de IA resultante a favorecer ciertos resultados sobre otros. Dado que los modelos funcionan como motores de reconocimiento de patrones, dependen totalmente de sus datos de entrada; si los datos de entrenamiento no reflejan con precisión la diversidad del entorno real, el modelo heredará estos puntos ciegos. Este fenómeno suele derivar en una mala generalización, donde una IA puede obtener puntuaciones altas durante las pruebas, pero fallar significativamente al implementarse para inferencia en tiempo real en escenarios diversos o inesperados.

Link to this sectionFuentes comunes de sesgo en los datos#

El sesgo puede infiltrarse en un conjunto de datos en varias etapas del ciclo de vida de desarrollo, originándose con frecuencia a partir de decisiones humanas durante la recopilación o el etiquetado.

  • Sesgo de selección: Esto surge cuando los datos recopilados no representan de forma aleatoria a la población objetivo. Por ejemplo, crear un conjunto de datos de reconocimiento facial utilizando predominantemente imágenes de celebridades puede sesgar el modelo hacia el maquillaje intenso y la iluminación profesional, provocando que falle con imágenes cotidianas de cámaras web.
  • Errores de etiquetado: La subjetividad durante el etiquetado de datos puede introducir prejuicios humanos. Si los anotadores clasifican erróneamente de forma constante objetos ambiguos debido a la falta de directrices claras, el modelo trata estos errores como verdad fundamental.
  • Sesgo de representación: Incluso si se seleccionan al azar, los grupos minoritarios pueden quedar estadísticamente eclipsados por la clase mayoritaria. En detección de objetos, un conjunto de datos con 10.000 imágenes de coches pero solo 100 imágenes de bicicletas dará como resultado un modelo sesgado hacia la detección de coches.

Link to this sectionAplicaciones y consecuencias en el mundo real#

El impacto del sesgo en los conjuntos de datos es significativo en diversas industrias, especialmente donde los sistemas automatizados toman decisiones de gran repercusión o interactúan con el mundo físico.

En la industria automotriz, la IA en automoción depende de cámaras para identificar peatones y obstáculos. Si un coche autónomo se entrena principalmente con datos recopilados en climas soleados y secos, puede mostrar una degradación en el rendimiento al operar con nieve o lluvia intensa. Este es un ejemplo clásico de que la distribución de entrenamiento no coincide con la distribución operativa, lo que conlleva riesgos de seguridad.

Del mismo modo, en el análisis de imágenes médicas, los modelos de diagnóstico suelen entrenarse con datos históricos de pacientes. Si un modelo diseñado para detectar afecciones cutáneas se entrena con un conjunto de datos dominado por tonos de piel más claros, puede demostrar una precisión significativamente menor al diagnosticar pacientes con tonos de piel más oscuros. Abordar esto requiere un esfuerzo coordinado para seleccionar conjuntos de datos diversos que garanticen la equidad en la IA en todos los grupos demográficos.

Link to this sectionEstrategias de mitigación#

Los desarrolladores pueden reducir el sesgo en los conjuntos de datos empleando auditorías rigurosas y estrategias de entrenamiento avanzadas. Técnicas como la aumentación de datos ayudan a equilibrar los conjuntos de datos creando artificialmente variaciones de ejemplos subrepresentados (por ejemplo, voltear, rotar o ajustar el brillo). Además, generar datos sintéticos puede cubrir las carencias allí donde los datos del mundo real son escasos o difíciles de recopilar.

Gestionar estos conjuntos de datos de forma eficaz es fundamental. Ultralytics Platform permite a los equipos visualizar las distribuciones de clases e identificar desequilibrios antes de que comience el entrenamiento. Además, seguir directrices como el NIST AI Risk Management Framework ayuda a las organizaciones a estructurar su enfoque para identificar y mitigar estos riesgos de forma sistemática.

Link to this sectionSesgo en los conjuntos de datos frente a conceptos relacionados#

Es útil distinguir el sesgo en los conjuntos de datos de otros términos similares para comprender dónde se origina el error:

  • frente al Sesgo algorítmico: El sesgo en el conjunto de datos está centrado en los datos; implica que los "ingredientes" son defectuosos. El sesgo algorítmico está centrado en el modelo; surge del diseño del propio algoritmo o del algoritmo de optimización, que podría priorizar las clases mayoritarias para maximizar las métricas generales a expensas de los grupos minoritarios.
  • frente a la Deriva del modelo: El sesgo en el conjunto de datos es un problema estático presente en el momento del entrenamiento. La deriva del modelo (o deriva de los datos) ocurre cuando los datos del mundo real cambian con el tiempo después de que el modelo se ha implementado, lo que requiere un monitoreo del modelo continuo.

Link to this sectionEjemplo de código: Aumentación para reducir el sesgo#

El siguiente ejemplo demuestra cómo aplicar la aumentación de datos durante el entrenamiento con YOLO26. Al aumentar las aumentaciones geométricas, el modelo aprende a generalizar mejor, lo que potencialmente reduce el sesgo hacia orientaciones o posiciones específicas de objetos encontradas en el conjunto de entrenamiento.

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático