La limpieza de datos es el proceso esencial de identificar y corregir o eliminar errores, incoherencias, imprecisiones y registros corruptos de un conjunto de datos. Garantiza que los datos sean precisos, coherentes y utilizables, lo que es fundamental para construir modelos de inteligencia artificial (IA) y aprendizaje automático (AM) fiables y eficaces. Piénsalo como preparar ingredientes de alta calidad antes de cocinarlos; sin datos limpios, el resultado final (el modelo de IA) probablemente será defectuoso, siguiendo el principio de "basura dentro, basura fuera" común en la ciencia de datos. Los datos limpios conducen a un mejor rendimiento de los modelos, a ideas más fiables y a una reducción del sesgo en la IA.
Tareas habituales de limpieza de datos
La limpieza de datos implica diversas técnicas adaptadas a los problemas específicos de un conjunto de datos. Entre las tareas habituales se incluyen:
- Tratamiento de los datos que faltan: Identificar las entradas con valores omitidos y decidir si se eliminan, se estiman (imputación) o se utilizan algoritmos robustos a los datos omitidos. Existen varias estrategias para tratar los datos que faltan, según el contexto.
- Corregir errores e incoherencias: Corregir erratas, normalizar unidades o formatos (por ejemplo, formatos de fecha, mayúsculas) y resolver puntos de datos contradictorios. Esto es crucial para mantener la integridad de los datos.
- Eliminar registros duplicados: Identificar y eliminar entradas idénticas o casi idénticas que puedan sesgar el análisis o el entrenamiento de modelos.
- Manejo de valores atípicos: Detectar puntos de datos que difieren significativamente de otras observaciones. Dependiendo de la causa, los valores atípicos pueden eliminarse, corregirse o mantenerse. Se pueden emplear varios métodos de detección de valores atípicos.
- Corrección de errores estructurales: Corrección de problemas relacionados con la estructura de los datos, como convenciones de nomenclatura incoherentes o entradas mal colocadas.
Aplicaciones en el mundo real
La limpieza de datos es indispensable en numerosas aplicaciones de IA/ML:
- Análisis de imágenes médicas: En conjuntos de datos sanitarios como el de Tumores Cerebrales, la limpieza de datos implica eliminar las exploraciones de baja calidad o corruptas (por ejemplo, imágenes borrosas), estandarizar los formatos de imagen (como DICOM), corregir los diagnósticos mal etiquetados y garantizar que se mantiene la privacidad de los datos de los pacientes de acuerdo con normativas como la HIPAA. Los datos limpios son vitales para entrenar modelos de diagnóstico fiables. Los Institutos Nacionales de Salud (NIH ) hacen hincapié en la calidad de los datos en la investigación biomédica. Más información sobre la IA en la asistencia sanitaria.
- Gestión de inventarios minoristas: Para los sistemas que utilizan la visión por ordenador para hacer un seguimiento de las existencias, como los que potencialmente utilizan el conjunto de datos SKU-110K, la limpieza implica corregir los productos mal identificados en las imágenes, eliminar las entradas duplicadas causadas por errores de escaneado, normalizar los nombres o códigos de los productos en distintas fuentes de datos y tratar las incoherencias en los registros de ventas utilizados para la previsión de la demanda o los sistemas de recomendación. Esto garantiza recuentos de existencias precisos y operaciones eficientes en la cadena de suministro, contribuyendo a lograr la eficiencia del comercio minorista con IA. Las plataformas como Google Cloud AI for Retail suelen basarse en datos de entrada limpios.
Limpieza de datos frente a conceptos relacionados
Es importante distinguir la limpieza de datos de los pasos relacionados con la preparación de datos:
- Preprocesamiento de datos: Es un término más amplio que engloba la limpieza de datos, pero también incluye otras transformaciones para preparar los datos para los modelos de ML, como la normalización (escalado de características numéricas), la codificación de variables categóricas y la extracción de características. Mientras que la limpieza se centra en corregir errores, el preprocesamiento se centra en formatear los datos para los algoritmos. Para más detalles, consulta la guía deUltralytics sobre el preprocesamiento de datos anotados.
- Etiquetado de datos: Es el proceso de añadir etiquetas o anotaciones informativas a los datos brutos, como dibujar recuadros alrededor de los objetos de las imágenes para el aprendizaje supervisado. La limpieza de datos puede implicar la corrección de etiquetas incorrectas identificadas durante las comprobaciones de calidad, pero es distinta del acto inicial de etiquetado. La guía Recogida y anotación de datos proporciona información sobre el etiquetado. Ultralytics HUB ofrece herramientas para gestionar conjuntos de datos etiquetados.
- Aumento de datos: Esta técnica aumenta artificialmente el tamaño y la diversidad del conjunto de datos de entrenamiento creando copias modificadas de los datos existentes (por ejemplo, girando las imágenes, cambiando el brillo). El aumento de datos pretende mejorar la generalización y solidez del modelo, mientras que la limpieza de datos se centra en mejorar la calidad de los datos originales. Más información en La guía definitiva para el aumento de datos en 2025.
La limpieza de datos es una práctica fundamental, a menudo iterativa, que aumenta significativamente la fiabilidad y el rendimiento de los sistemas de IA al garantizar que los datos subyacentes son sólidos. Herramientas como la biblioteca Pandas se utilizan habitualmente para tareas de manipulación y limpieza de datos en flujos de trabajo de ML Python. Garantizar la calidad de los datos mediante una limpieza rigurosa es vital para desarrollar una IA fiable, especialmente cuando se trabaja con tareas complejas de visión por ordenador (VC) o conjuntos de datos de referencia a gran escala como COCO o ImageNet.