Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Guías

Comprensión del sesgo de la IA y del sesgo en los datasets en sistemas de IA de visión

Aprende cómo el sesgo de los datasets afecta a los modelos de visión por computador y cómo Ultralytics YOLO11 ayuda a reducirlo con aumentación inteligente y herramientas de entrenamiento flexibles.

ABAbdelrahman Elgendy4 min read
Reajuste de la ponderación de los datos fuente para mejorar la precisión del modelo y reducir el sesgo

Los modelos de inteligencia artificial (IA) están cambiando la forma en que resolvemos problemas, pero no son perfectos. Desde coches autónomos hasta herramientas de diagnóstico en atención sanitaria, confiamos en la IA para interpretar datos y tomar decisiones. ¿Qué ocurre cuando los datos en sí mismos tienen fallos?

El sesgo en la IA se refiere a patrones de inconsistencia que se desarrollan en los modelos, a menudo sin que nadie se dé cuenta. Estos sesgos pueden hacer que los modelos realicen predicciones inexactas, inconsistentes o incluso dañinas. En la visión artificial, el sesgo suele tener una fuente clave: el conjunto de datos. Si los datos utilizados para entrenar el modelo no están equilibrados o no son representativos, el modelo reflejará esas lagunas.

Analicemos más de cerca cómo se forma el sesgo en los conjuntos de datos, cómo afecta a los modelos de visión artificial y qué pasos pueden dar los desarrolladores para detectarlo y prevenirlo. También mostraremos cómo modelos como Ultralytics YOLO11 pueden apoyar los esfuerzos para construir sistemas de IA más justos que generalicen mejor, lo que significa que funcionan bien con datos nuevos y no vistos, y sirven a todo el mundo de manera más equitativa.

Link to this section¿Qué es el sesgo de la IA y por qué es importante?#

El sesgo de la IA se refiere a errores consistentes en un sistema de IA que dan lugar a resultados sesgados o inexactos. En términos más sencillos, el modelo empieza a favorecer un tipo de entrada visual sobre otros, lo que afecta a la equidad del modelo, no porque funcione mejor, sino debido a cómo fue entrenado.

Esto puede ser especialmente común en la visión artificial, donde los modelos aprenden de datos visuales. Si un conjunto de datos incluye principalmente un tipo de objeto, escena o persona, el modelo aprende patrones que solo funcionan bien para esos casos.

Imagina un modelo entrenado principalmente con imágenes de tráfico de grandes ciudades. Si se despliega en una zona rural, podría clasificar erróneamente trazados de carretera inusuales o no detectar tipos de vehículos que nunca antes ha visto. Eso es el sesgo de la IA en acción. Conduce a una menor precisión y a una generalización limitada, que se refiere a la capacidad de un modelo para funcionar bien con entradas nuevas o diversas.

En aplicaciones donde la precisión es esencial, como la atención sanitaria o la seguridad, estos errores no solo son frustrantes, pueden ser peligrosos. Abordar el sesgo tiene que ver con el rendimiento, la fiabilidad y la seguridad.

Link to this sectionCómo influye el sesgo de los conjuntos de datos en el comportamiento del modelo#

Cuando hablamos de sesgo de los conjuntos de datos, nos referimos al desequilibrio o limitación en los datos utilizados para entrenar un modelo. El sesgo de los conjuntos de datos ocurre cuando los datos de entrenamiento no reflejan adecuadamente la diversidad del mundo real que se pretende modelar.

Los modelos de visión artificial no entienden el mundo. Entienden patrones. Si las únicas imágenes de perros que ven son golden retrievers en jardines, puede que no reconozcan a un husky en un sendero nevado.

Reajustar los datos de origen para mejorar la precisión del modelo

Fig 1. El reajuste de los datos de origen ayuda a conseguir una mejor precisión del modelo.

Esto pone de relieve uno de los principales desafíos causados por el sesgo de los conjuntos de datos. El modelo construye su comprensión basándose en lo que se le muestra. Si esos datos de entrenamiento no reflejan la variedad del mundo real, el comportamiento del modelo se vuelve limitado y menos eficaz en condiciones desconocidas.

Los clasificadores de imágenes a menudo funcionan significativamente peor cuando se prueban en un conjunto de datos diferente al que fueron entrenados, incluso si ambos conjuntos de datos están construidos para la misma tarea. Pequeños cambios en la iluminación, los fondos o los ángulos de cámara pueden provocar caídas notables en la precisión. Esto muestra con qué facilidad el sesgo de los conjuntos de datos puede afectar a la capacidad de un modelo para generalizar.

Estos no son casos excepcionales. Son señales de que tu canalización de datos es tan importante como la arquitectura de tu modelo.

Link to this sectionTipos de sesgo en los datos de entrenamiento de IA#

El sesgo puede verse en el proceso de desarrollo de maneras sutiles, a menudo durante la recopilación, el etiquetado o la curación de datos. A continuación, se presentan tres tipos principales de sesgo que pueden afectar a tus datos de entrenamiento:

Link to this sectionSesgo de selección#

El sesgo de selección puede ocurrir cuando el conjunto de datos no representa la variedad vista en el uso en el mundo real. Si un modelo de detección de peatones se entrena solo con imágenes claras durante el día, no funcionará bien de noche o con niebla. Por tanto, el proceso de selección ha pasado por alto casos cruciales.

Una representación visual del sesgo de selección en un conjunto de datos

Fig 2. Una representación visual del sesgo de selección donde solo se elige un subconjunto no diverso.

Este sesgo ocurre cuando el conjunto de datos no captura toda la gama de escenarios del mundo real debido a cómo se recopilaron los datos. Por ejemplo, un modelo de detección de peatones entrenado solo con imágenes claras durante el día puede fallar con niebla, nieve o poca luz. Esto ocurre a menudo cuando los datos se recopilan en condiciones ideales o convenientes, limitando la capacidad del modelo para funcionar en entornos variados. Ampliar los esfuerzos de recopilación para incluir entornos más diversos ayuda a reducir este tipo de sesgo.

También puede surgir en conjuntos de datos construidos a partir de fuentes en línea, donde el contenido puede estar fuertemente sesgado hacia ciertas ubicaciones, idiomas o contextos socioeconómicos. Sin un esfuerzo deliberado por diversificar el conjunto de datos, el modelo heredará estas limitaciones.

Link to this sectionSesgo de etiquetado#

El sesgo de etiquetado ocurre cuando los anotadores humanos aplican etiquetas incorrectas o inconsistentes. Una etiqueta errónea puede parecer inofensiva, pero si ocurre a menudo, el modelo empieza a aprender las asociaciones incorrectas.

El etiquetado inconsistente puede confundir al modelo durante el entrenamiento, especialmente en tareas complejas como la detección de objetos. Por ejemplo, un anotador puede etiquetar un vehículo como "coche", mientras que otro etiqueta uno similar como "camión". Estas inconsistencias afectan a la capacidad del modelo para aprender patrones fiables, lo que lleva a una precisión reducida durante la inferencia.

Sesgo en los canales de datos que se origina a partir de desequilibrios del mundo real

Fig 3. El sesgo en los canales de datos se origina a partir de desequilibrios del mundo real.

El sesgo de etiquetado también puede surgir de directrices de anotación poco claras o de interpretaciones variables de los mismos datos. Establecer normas de etiquetado bien documentadas y realizar controles de control de calidad puede reducir significativamente estos desafíos.

La formación continua para los anotadores y el uso de etiquetado por consenso, donde varios anotadores revisan cada muestra, son dos estrategias eficaces para minimizar el sesgo de etiquetado y mejorar la calidad del conjunto de datos.

Link to this sectionSesgo de representación#

El sesgo de representación a menudo refleja desigualdades sociales más amplias. Los datos recopilados en regiones más ricas o mejor conectadas pueden no capturar la diversidad de poblaciones o entornos menos representados. Abordar este sesgo requiere la inclusión intencionada de grupos y contextos pasados por alto.

El sesgo de representación ocurre cuando ciertos grupos o clases están subrepresentados en el conjunto de datos. Estos pueden incluir grupos demográficos, categorías de objetos o condiciones ambientales. Si un modelo solo ve un tono de piel, un tipo de objeto o un estilo de fondo, sus predicciones reflejarán ese desequilibrio.

Podemos observar este tipo de sesgo cuando ciertos grupos o categorías se incluyen en cantidades mucho menores que otros. Esto puede sesgar las predicciones del modelo hacia los ejemplos dominantes en el conjunto de datos. Por ejemplo, un modelo de reconocimiento facial entrenado principalmente con una demografía puede tener dificultades para funcionar con precisión para todos los usuarios. A diferencia del sesgo de selección, que está ligado a la variedad de datos, el sesgo de representación concierne al equilibrio entre grupos.

Las auditorías de diversidad y las estrategias de expansión de datos específicas pueden ayudar a garantizar que todas las demografías y categorías relevantes estén representadas adecuadamente a lo largo del conjunto de datos de entrenamiento.

Link to this sectionCómo detectar y mitigar el sesgo de los conjuntos de datos#

En despliegues del mundo real, el sesgo de la IA no significa solo unas pocas predicciones incorrectas. Puede dar lugar a sistemas que funcionan bien para algunas personas, pero no para todo el mundo.

En la IA de automoción, los modelos de detección pueden funcionar de forma inconsistente entre grupos de peatones, lo que conduce a peores resultados de seguridad para las personas subrepresentadas. El problema no es la intención del modelo. Son las entradas visuales con las que ha sido entrenado. Incluso en la agricultura, el sesgo en la detección de objetos puede significar una mala identificación de los cultivos bajo diferentes condiciones de iluminación o meteorológicas. Estas son consecuencias comunes de entrenar modelos con conjuntos de datos limitados o desequilibrados.

Corregir el sesgo de la IA empieza por saber dónde mirar. Si a tu conjunto de entrenamiento le faltan ejemplos clave o representa en exceso un rango limitado, tu modelo reflejará esas lagunas. Por eso la detección de sesgos en la IA es un paso crítico en cada proceso de desarrollo.

Pasos clave para reducir el sesgo de la IA y mejorar la equidad

Fig 4. Pasos clave para reducir el sesgo de la IA y mejorar la equidad.

Empieza por analizar tu conjunto de datos. Observa la distribución entre clases, entornos, iluminación, escalas de objetos y demografías. Si una categoría domina, es probable que tu modelo funcione peor en las otras.

A continuación, observa el rendimiento. ¿El modelo funciona peor en ciertos entornos o para tipos de objetos específicos? Si es así, eso es una señal de sesgo aprendido, y suele apuntar de nuevo a los datos.

La evaluación a nivel de segmento es clave. Un modelo puede informar de un 90% de precisión de media, pero solo de un 60% en un grupo o condición específica. Sin comprobar esos segmentos, nunca lo sabrías.

Utilizar métricas de equidad durante el entrenamiento y la evaluación es otra herramienta potente. Estas métricas van más allá de las puntuaciones de precisión estándar y evalúan cómo se comporta el modelo en diferentes subconjuntos de datos. Ayudan a sacar a la luz puntos ciegos que de otro modo pasarían desapercibidos.

La transparencia en la composición de los conjuntos de datos y las pruebas de modelos conducen a mejores modelos.

Link to this sectionMejorar la equidad a través de la diversidad de datos y la aumentación#

Una vez que hayas identificado el sesgo, el siguiente paso es cerrar la brecha. Una de las formas más eficaces de hacerlo es aumentando la diversidad de datos en los modelos de IA. Eso significa recopilar más muestras de escenarios subrepresentados, ya sean imágenes médicas de diferentes poblaciones o condiciones ambientales inusuales.

Añadir más datos puede ser valioso, especialmente cuando aumenta la diversidad. Sin embargo, mejorar la equidad también depende de recopilar los tipos correctos de ejemplos. Estos deben reflejar la variación del mundo real que es probable que encuentre tu modelo.

La aumentación de datos es otra estrategia valiosa. Voltear, rotar, ajustar la iluminación y escalar objetos puede ayudar a simular diferentes condiciones del mundo real. La aumentación no solo aumenta la variedad del conjunto de datos, sino que también ayuda a que el modelo sea más robusto ante cambios de apariencia, iluminación y contexto.

La mayoría de los procesos de entrenamiento modernos incluyen aumentación por defecto, pero el uso estratégico, como centrarse en ajustar según las necesidades específicas de la tarea, es lo que lo hace eficaz para la equidad.

Link to this sectionUtilizar datos sintéticos para rellenar las lagunas#

Los datos sintéticos se refieren a datos generados artificialmente que imitan ejemplos del mundo real. Pueden ser una herramienta útil cuando ciertos escenarios son demasiado raros o demasiado sensibles para capturarlos en condiciones reales.

Por ejemplo, si estás construyendo un modelo para detectar defectos raros en maquinaria o infracciones de tráfico de casos excepcionales, puedes simular esos casos utilizando datos sintéticos. Esto le da a tu modelo la oportunidad de aprender de eventos que puede no encontrar a menudo en tu conjunto de entrenamiento.

Los estudios han descubierto que la introducción de datos sintéticos específicos en el entrenamiento puede reducir el sesgo de los conjuntos de datos y mejorar el rendimiento en diferentes grupos demográficos y entornos.

Los datos sintéticos funcionan mejor cuando se combinan con muestras del mundo real. Complementan tu conjunto de datos; no lo reemplazan.

Link to this sectionCómo apoya YOLO11 a la IA ética#

La construcción de modelos de IA imparciales también depende de las herramientas que utilices. YOLO11 está diseñado para ser flexible, fácil de ajustar y altamente adaptable, lo que lo convierte en una opción sólida para reducir el sesgo de los conjuntos de datos.

YOLO11 admite técnicas avanzadas de aumentación de datos durante el entrenamiento del modelo, lo que introduce contextos de imagen variados y ejemplos mezclados para mejorar la generalización del modelo y reducir el sobreajuste.

YOLO11 también presenta una arquitectura de backbone y neck mejorada para una extracción de características más eficaz. Esta actualización mejora la capacidad del modelo para detectar detalles de grano fino, lo cual es crítico en escenarios subrepresentados o de casos excepcionales donde los modelos estándar pueden tener dificultades.

Debido a que YOLO11 es sencillo de reentrenar y desplegar en entornos de borde y en la nube, los equipos pueden identificar brechas de rendimiento y actualizar rápidamente el modelo cuando se descubre un sesgo en el campo.

La IA justa no es un objetivo único. Es un ciclo de evaluación, aprendizaje y ajuste. Herramientas como YOLO11 ayudan a hacer ese ciclo más rápido y más productivo.

Link to this sectionPuntos clave#

El sesgo de la IA afecta a todo, desde la equidad hasta el rendimiento. El sesgo de la visión artificial a menudo proviene de cómo se recopilan, etiquetan y equilibran los conjuntos de datos. Afortunadamente, existen formas probadas de detectarlo y mitigarlo.

Empieza por auditar tus datos y probar el rendimiento del modelo en diferentes escenarios. Utiliza la recopilación de datos específica, la aumentación y los datos sintéticos para crear una mejor cobertura de entrenamiento.

YOLO11 apoya este proceso facilitando el entrenamiento de modelos personalizados, la aplicación de técnicas de aumentación fuertes y la respuesta rápida cuando se encuentra un sesgo.

Construir una IA justa no es solo lo correcto. También es la forma de construir sistemas más inteligentes y fiables.

¡Únete a nuestra creciente comunidad! Explora nuestro repositorio de GitHub para aprender más sobre IA. ¿Estás listo para comenzar tus propios proyectos de visión artificial? Echa un vistazo a nuestras opciones de licencia. ¡Descubre la IA en la fabricación y la IA de visión en la agricultura visitando nuestras páginas de soluciones!

Explore solutions

Real-time AI tailored to your operation

IA en la agricultura

Integra la visión artificial en la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el rastreo de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en la automoción con modelos Ultralytics YOLO. La visión artificial mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Desarrolla soluciones de atención sanitaria con los modelos de Ultralytics YOLO. La IA de visión en el ámbito sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la monitorización de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La visión por IA en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con modelos de Ultralytics YOLO. La visión por IA impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPP y la automatización de las líneas de montaje.

Más información
Real-time AI that works with your team

IA en logística

Agiliza la logística con los modelos de Ultralytics YOLO. La visión por IA permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y el monitoreo de la seguridad en el almacén en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Integra la visión artificial en la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el rastreo de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en la automoción con modelos Ultralytics YOLO. La visión artificial mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Desarrolla soluciones de atención sanitaria con los modelos de Ultralytics YOLO. La IA de visión en el ámbito sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la monitorización de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La visión por IA en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con modelos de Ultralytics YOLO. La visión por IA impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPP y la automatización de las líneas de montaje.

Más información
Real-time AI that works with your team

IA en logística

Agiliza la logística con los modelos de Ultralytics YOLO. La visión por IA permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y el monitoreo de la seguridad en el almacén en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Integra la visión artificial en la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el rastreo de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en la automoción con modelos Ultralytics YOLO. La visión artificial mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Desarrolla soluciones de atención sanitaria con los modelos de Ultralytics YOLO. La IA de visión en el ámbito sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la monitorización de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La visión por IA en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con modelos de Ultralytics YOLO. La visión por IA impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPP y la automatización de las líneas de montaje.

Más información
Real-time AI that works with your team

IA en logística

Agiliza la logística con los modelos de Ultralytics YOLO. La visión por IA permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y el monitoreo de la seguridad en el almacén en tiempo real.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático