IA de visión

La importancia de los datasets de visión artificial de alta calidad

Únete a nosotros mientras exploramos la necesidad de datos de alta calidad al crear modelos de visión artificial. Descubre cómo la calidad de los datos puede afectar al rendimiento del modelo.

ABAbirami Vina

4 min readDecember 16, 2024

La importancia de los datasets de visión artificial de alta calidad

En 2019, la adopción de inteligencia artificial (IA) empresarial había aumentado un 270% en los cuatro años anteriores. Este crecimiento ha impulsado la rápida integración de aplicaciones de visión artificial (CV): sistemas de IA que permiten a las máquinas interpretar y analizar datos visuales del mundo que las rodea. Estas aplicaciones potencian una amplia gama de tecnologías, desde la detección de enfermedades en imágenes médicas y la habilitación de vehículos autónomos, hasta la optimización del flujo de tráfico en el transporte y la mejora de la vigilancia en sistemas de seguridad.

La notable precisión y el rendimiento inigualable de los modelos de visión artificial de vanguardia, como Ultralytics YOLO11, han impulsado en gran medida este crecimiento exponencial. Sin embargo, el rendimiento de estos modelos depende en gran medida de la calidad y cantidad de los datos utilizados para entrenar, validar y probar los modelos.

Sin suficientes datos de alta calidad, los modelos de visión artificial pueden ser difíciles de entrenar y ajustar de manera efectiva para cumplir con los estándares de la industria. En este artículo, exploraremos el papel vital de los datos en la creación de modelos de visión artificial y por qué los datos de alta calidad son tan importantes en la visión artificial. También veremos algunos consejos para ayudarte a crear datasets de alta calidad mientras trabajas en el entrenamiento de modelos de visión artificial personalizados. ¡Empecemos!

Link to this sectionEl papel de los datos en la construcción de modelos de visión artificial#

Los modelos de visión artificial pueden entrenarse con grandes datasets de imágenes y vídeos para reconocer patrones y hacer predicciones precisas. Por ejemplo, un modelo de detección de objetos puede entrenarse con cientos, o incluso miles, de imágenes y vídeos etiquetados para identificar objetos con precisión.

La calidad y la cantidad de estos datos de entrenamiento influyen en el rendimiento del modelo.

Dado que los modelos de visión artificial solo pueden aprender de los datos a los que están expuestos, proporcionar datos de alta calidad y ejemplos diversos es crucial para su éxito. Sin datasets suficientes y diversos, estos modelos pueden no ser capaces de analizar escenarios del mundo real con precisión y podrían producir resultados sesgados o inexactos.

Por eso es importante entender claramente el papel de los datos en el entrenamiento de modelos. Antes de ver las características de los datos de alta calidad, comprendamos los tipos de datasets que podrías encontrar al entrenar modelos de visión artificial.

Link to this sectionTipos de datasets de visión artificial#

En visión artificial, los datos utilizados en el proceso de entrenamiento se clasifican en tres tipos, cada uno de los cuales cumple un propósito específico. Aquí tienes un vistazo rápido a cada tipo:

Datos de entrenamiento: Este es el dataset principal utilizado para entrenar el modelo desde cero. Consiste en imágenes y vídeos con etiquetas predefinidas, lo que permite al modelo aprender patrones y reconocer objetos.
Datos de validación: Es un conjunto de datos utilizado para comprobar el rendimiento del modelo mientras se entrena. Ayuda a garantizar que el modelo funcione correctamente con datos nuevos y no vistos anteriormente.
Datos de prueba: Un conjunto de datos independiente utilizado para evaluar el rendimiento final de un modelo entrenado. Comprueba lo bien que puede hacer predicciones el modelo con datos completamente nuevos y no vistos.

Cómo se categorizan los datos en visión artificial

Fig 1. Cómo se clasifican los datos en la visión artificial.

Link to this sectionLas 5 principales características de los datasets de visión artificial de alta calidad#

Independientemente del tipo de dataset, los datos de alta calidad son esenciales para construir modelos de visión artificial exitosos. Estas son algunas de las características clave que hacen que un dataset sea de alta calidad:

Precisión: Idealmente, los datos deben reflejar fielmente las situaciones del mundo real e incluir etiquetas correctas. Por ejemplo, cuando se trata de IA de visión en el sector sanitario, las imágenes de radiografías o escáneres deben estar etiquetadas con precisión para ayudar al modelo a aprender correctamente.
Diversidad: Un buen dataset incluye una variedad de ejemplos para ayudar al modelo a desempeñarse bien en diferentes situaciones. Por ejemplo, si un modelo está aprendiendo a detectar coches, el dataset debe incluir coches de diferentes formas, tamaños y colores en diversos entornos (día, noche, lluvia, etc.).
Consistencia: Los datasets de alta calidad siguen un formato y unos estándares de calidad uniformes. Por ejemplo, las imágenes deben tener resoluciones similares (no algunas borrosas y otras nítidas) y pasar por los mismos pasos de preprocesamiento, como el cambio de tamaño o los ajustes de color, para que el modelo aprenda de información coherente.
Actualidad: Los datasets que se actualizan regularmente pueden seguir el ritmo de los cambios del mundo real. Supongamos que estás entrenando un modelo para detectar todo tipo de vehículos. Si se introducen nuevos, como los patinetes eléctricos, deben añadirse al dataset para asegurar que el modelo siga siendo preciso y esté actualizado.
Privacidad: Si un dataset incluye información sensible, como fotos de personas, debe cumplir con las normas de privacidad. Técnicas como la anonimización (eliminar detalles identificables) y el enmascaramiento de datos (ocultar partes sensibles) pueden proteger la privacidad al tiempo que hacen posible utilizar los datos de forma segura.

Link to this sectionDesafíos causados por datos de baja calidad#

Aunque entender las características de los datos de alta calidad es importante, es igual de vital considerar cómo los datos de baja calidad pueden afectar a tus modelos de visión artificial.

Problemas como el sobreajuste (overfitting) y el subajuste (underfitting) pueden afectar gravemente al rendimiento del modelo. El sobreajuste ocurre cuando un modelo funciona bien con los datos de entrenamiento pero tiene dificultades con datos nuevos o no vistos, a menudo porque al dataset le falta variedad. Por el contrario, el subajuste ocurre cuando el dataset no proporciona suficientes ejemplos o calidad para que el modelo aprenda patrones significativos. Para evitar estos problemas, es esencial mantener datasets diversos, imparciales y de alta calidad, asegurando un rendimiento fiable tanto en el entrenamiento como en las aplicaciones del mundo real.

Infraajuste frente a sobreajuste

Fig 2. Subajuste frente a sobreajuste.

Los datos de baja calidad también pueden dificultar que los modelos extraigan y aprendan patrones significativos a partir de datos sin procesar, un proceso conocido como extracción de características. Si el dataset está incompleto, es irrelevante o carece de diversidad, al modelo le puede costar funcionar eficazmente.

A veces, los datos de baja calidad pueden ser el resultado de una simplificación. Simplificar los datos puede ayudar a ahorrar espacio de almacenamiento y reducir los costes de procesamiento, pero una simplificación excesiva puede eliminar detalles importantes que el modelo necesita para funcionar bien. Por eso es tan importante mantener datos de alta calidad durante todo el proceso de visión artificial, desde la recopilación hasta el despliegue. Como regla general, los datasets deben incluir características esenciales sin dejar de ser diversos y precisos para garantizar predicciones de modelo fiables.

Comprender la extracción de características

Fig 3. Entender la extracción de características.

Link to this sectionConsejos para mantener la calidad de tu dataset de visión artificial#

Ahora que hemos entendido la importancia de los datos de alta calidad y el impacto de los de baja calidad, exploremos cómo asegurarnos de que tu dataset cumpla con estándares elevados.

Todo comienza con una recopilación de datos fiable. El uso de fuentes diversas, como el crowdsourcing, los datos de regiones geográficas variadas y la generación de datos sintéticos, reduce el sesgo y ayuda a los modelos a manejar escenarios del mundo real. Una vez recopilados los datos, el preprocesamiento es fundamental. Técnicas como la normalización, que escala los valores de los píxeles a un rango coherente, y la aumentación, que aplica transformaciones como rotación, volteo y zoom, mejoran el dataset. Estos pasos ayudan a que tu modelo se generalice mejor y sea más robusto, reduciendo el riesgo de sobreajuste.

Dividir adecuadamente los datasets es otro paso clave. Un enfoque común es asignar el 70% de los datos para entrenamiento, el 15% para validación y el 15% para pruebas. Comprobar dos veces que no hay solapamiento entre estos conjuntos evita la fuga de datos y garantiza una evaluación precisa del modelo.

Una división de datos común entre entrenamiento, validación y pruebas

Fig 4. Una división de datos común entre entrenamiento, validación y prueba.

También puedes utilizar modelos preentrenados como YOLO11 para ahorrar tiempo y recursos computacionales. YOLO11, entrenado con grandes datasets y diseñado para diversas tareas de visión artificial, puede ajustarse a tu dataset específico para satisfacer tus necesidades. Al adaptar el modelo a tus datos, puedes evitar el sobreajuste y mantener un rendimiento sólido.

Link to this sectionEl camino a seguir para los datasets de visión artificial#

La comunidad de IA se ha centrado tradicionalmente en mejorar el rendimiento mediante la construcción de modelos más profundos con más capas. Sin embargo, a medida que la IA sigue evolucionando, el enfoque está cambiando de la optimización de modelos a la mejora de la calidad de los datasets. Andrew Ng, a menudo conocido como el "padre de la IA", cree que "el cambio más importante que el mundo de la IA debe experimentar en esta década será un cambio hacia una IA centrada en los datos".

Este enfoque enfatiza el refinamiento de los datasets mediante la mejora de la precisión de las etiquetas, la eliminación de ejemplos ruidosos y la garantía de diversidad. Para la visión artificial, estos principios son críticos para abordar problemas como el sesgo y los datos de baja calidad, permitiendo que los modelos funcionen de manera fiable en escenarios del mundo real.

Mirando hacia el futuro, el avance de la visión artificial dependerá de la creación de datasets más pequeños y de alta calidad en lugar de recopilar grandes cantidades de datos. Según Andrew Ng, "Mejorar los datos no es un paso de preprocesamiento único; es una parte fundamental del proceso iterativo de desarrollo de modelos de machine learning". Al centrarse en principios centrados en los datos, la visión artificial seguirá siendo más accesible, eficiente e impactante en diversas industrias.

Link to this sectionConclusiones clave#

Los datos desempeñan un papel fundamental en todo el ciclo de vida de un modelo de visión. Desde la recopilación de datos hasta el preprocesamiento, el entrenamiento, la validación y la prueba, la calidad de los datos afecta directamente al rendimiento y la fiabilidad del modelo. Al priorizar los datos de alta calidad y un etiquetado preciso, podemos construir modelos de visión artificial robustos que ofrezcan resultados fiables y precisos.

A medida que avanzamos hacia un futuro basado en datos, es esencial abordar las consideraciones éticas para mitigar los riesgos relacionados con el sesgo y las normativas de privacidad. En última instancia, garantizar la integridad y la equidad de los datos es clave para aprovechar todo el potencial de las tecnologías de visión artificial.

Únete a nuestra comunidad y echa un vistazo a nuestro repositorio de GitHub para aprender más sobre IA. Visita nuestras páginas de soluciones para explorar más aplicaciones de IA en sectores como la agricultura y la fabricación.

Explore solutions

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

La importancia de los datasets de visión artificial de alta calidad

Link to this sectionEl papel de los datos en la construcción de modelos de visión artificial#

Link to this sectionTipos de datasets de visión artificial#

Link to this sectionLas 5 principales características de los datasets de visión artificial de alta calidad#

Link to this sectionDesafíos causados por datos de baja calidad#

Link to this sectionConsejos para mantener la calidad de tu dataset de visión artificial#

Link to this sectionEl camino a seguir para los datasets de visión artificial#

Link to this sectionConclusiones clave#

Explore solutions

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

¡Construyamos juntos el futuro de la IA!