Limpieza de datos
Domine la limpieza de datos para proyectos de IA y ML. Aprenda técnicas para corregir errores, mejorar la calidad de los datos e impulsar el rendimiento de los modelos de forma eficaz.
La limpieza de datos es el proceso de identificar y corregir o eliminar datos corruptos, inexactos, incompletos o incoherentes de un conjunto de datos. Es un primer paso fundamental en cualquier flujo de trabajo de aprendizaje automático, ya que la calidad de los datos de entrenamiento determina directamente el rendimiento y la fiabilidad del modelo resultante. Siguiendo el principio de "basura entrante, basura saliente", la limpieza de datos garantiza que modelos como Ultralytics YOLO se entrenen con información precisa y coherente, lo que conduce a una mayor precisión y a predicciones más fiables. Sin una limpieza adecuada, los problemas subyacentes en los datos pueden dar lugar a resultados sesgados y a una mala generalización del modelo.
Tareas clave de limpieza de datos
El proceso de limpieza de datos implica varias tareas distintas diseñadas para resolver diferentes tipos de problemas de calidad de los datos. Estas tareas suelen ser iterativas y pueden requerir conocimientos específicos del ámbito.
- Tratamiento de los valores que faltan: Los conjuntos de datos a menudo contienen entradas que faltan, que pueden tratarse eliminando los registros incompletos o imputando (rellenando) los valores que faltan utilizando métodos estadísticos como la media, la mediana o modelos predictivos más avanzados. Una guía sobre el tratamiento de los datos que faltan puede proporcionar más información.
- Corrección de datos inexactos: Se trata de corregir errores tipográficos, incoherencias en las medidas (por ejemplo, libras frente a kg) e información incorrecta. A menudo se aplican reglas de validación de datos para detectar estos errores.
- Eliminación de duplicados: Los registros duplicados pueden introducir sesgos en un modelo al dar un peso indebido a determinados puntos de datos. Identificar y eliminar estas entradas redundantes es un paso estándar.
- Gestión de valores atípicos: Los valores atípicos son puntos de datos que se desvían significativamente de otras observaciones. Dependiendo de su causa, pueden eliminarse, corregirse o transformarse para evitar que afecten negativamente al proceso de formación del modelo. Las técnicas de detección de valores atípicos se utilizan ampliamente para ello.
- Normalización de datos: Se trata de garantizar que los datos se ajustan a un formato coherente. Algunos ejemplos son la normalización de los formatos de fecha, las mayúsculas y minúsculas y las conversiones de unidades. Unas normas de calidad de datos coherentes son cruciales para el éxito.
Aplicaciones AI/ML en el mundo real
- Análisis de imágenes médicas: Cuando se entrena un modelo de detección de objetos en un conjunto de datos como el de tumores cerebrales, la limpieza de datos es vital. El proceso implicaría eliminar archivos de imagen corruptos o de baja calidad, estandarizar todas las imágenes con una resolución y un formato coherentes, y verificar que las etiquetas y anotaciones de los pacientes son correctas. De este modo se garantiza que el modelo aprenda a partir de información clara y fiable, lo que es esencial para desarrollar herramientas de diagnóstico fiables en el campo de la IA en la atención sanitaria. El National Institute of Biomedical Imaging and Bioengineering (NIBIB) destaca la importancia de la calidad de los datos en la investigación médica.
- IA para la gestión de inventarios en el comercio minorista: En el comercio minorista impulsado por la IA, los modelos de visión por ordenador controlan las existencias en las estanterías mediante la alimentación de las cámaras. Es necesario limpiar los datos para filtrar las imágenes borrosas, eliminar los fotogramas en los que los productos quedan ocultos por los compradores y desduplicar los recuentos de productos desde varios ángulos de cámara. La corrección de estos problemas garantiza que el sistema de inventario tenga una visión precisa de los niveles de existencias, lo que permite una reposición más inteligente y la reducción de los residuos. Empresas como Google Cloud ofrecen soluciones analíticas en las que la calidad de los datos es primordial.
Limpieza de datos frente a conceptos afines
Es importante distinguir la limpieza de datos de los pasos relacionados con la preparación de datos:
- Preprocesamiento de datos: Se trata de un término más amplio que engloba la limpieza de datos, pero también incluye otras transformaciones para preparar los datos para los modelos de ML, como la normalización (escalado de características numéricas), la codificación de variables categóricas y la extracción de características. Mientras que la limpieza se centra en corregir errores, el preprocesamiento se centra en formatear los datos para los algoritmos. Para más información, consulte la guía de Ultralytics sobre el preprocesamiento de datos anotados.
- Etiquetado de datos: Es el proceso de añadir etiquetas o anotaciones informativas a los datos brutos, como dibujar recuadros alrededor de los objetos en imágenes para el aprendizaje supervisado. La limpieza de datos puede implicar la corrección de etiquetas incorrectas identificadas durante los controles de calidad, pero es distinta del acto inicial de etiquetado. La guía Recogida y anotación de datos ofrece información sobre el etiquetado.
- Aumento de datos: Esta técnica aumenta artificialmente el tamaño y la diversidad del conjunto de datos de entrenamiento creando copias modificadas de los datos existentes (por ejemplo, girando las imágenes o cambiando el brillo). El objetivo del aumento de datos es mejorar la generalización y solidez del modelo, mientras que la limpieza de datos se centra en mejorar la calidad de los datos originales. Más información en The Ultimate Guide to Data Augmentation.
La limpieza de datos es una práctica fundamental, a menudo iterativa, que aumenta significativamente la fiabilidad y el rendimiento de los sistemas de IA al garantizar que los datos subyacentes son sólidos. Herramientas como la biblioteca Pandas se utilizan habitualmente para tareas de manipulación y limpieza de datos en flujos de trabajo de ML basados en Python. Garantizar la calidad de los datos mediante una limpieza rigurosa es vital para desarrollar una IA fiable, especialmente cuando se trabaja con tareas complejas de visión por ordenador (CV) o conjuntos de datos de referencia a gran escala como COCO o ImageNet. Plataformas como Ultralytics HUB pueden ayudar a gestionar y mantener conjuntos de datos de alta calidad durante todo el ciclo de vida del proyecto.