Glosario

Limpieza de datos

Domina la limpieza de datos para proyectos de IA y ML. Aprende técnicas para corregir errores, mejorar la calidad de los datos e impulsar el rendimiento de los modelos de forma eficaz.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La limpieza de datos es el proceso esencial de identificar y corregir o eliminar errores, incoherencias, imprecisiones y registros corruptos de un conjunto de datos. Garantiza que los datos sean precisos, coherentes y utilizables, lo que es fundamental para construir modelos de inteligencia artificial (IA) y aprendizaje automático (AM) fiables y eficaces. Piénsalo como preparar ingredientes de alta calidad antes de cocinarlos; sin datos limpios, el resultado final (el modelo de IA) probablemente será defectuoso, siguiendo el principio de "basura dentro, basura fuera" común en la ciencia de datos. Los datos limpios conducen a un mejor rendimiento de los modelos, a ideas más fiables y a una reducción del sesgo en la IA.

Relevancia en IA y Aprendizaje Automático

En IA y ML, la calidad de los datos de entrenamiento influye directamente en la precisión del modelo y en su capacidad de generalización a datos nuevos y desconocidos. La limpieza de datos es un primer paso fundamental en el flujo de trabajo del ML, que a menudo precede a tareas como la ingeniería de características y el entrenamiento de modelos. Modelos como Ultralytics YOLOutilizados para tareas exigentes como la detección de objetos o la segmentación de instancias, dependen en gran medida de conjuntos de datos limpios y bien estructurados para aprender eficazmente. Errores como imágenes mal etiquetadas, formatos de cuadros delimitadores incoherentes, valores que faltan o entradas duplicadas pueden degradar significativamente el rendimiento y dar lugar a predicciones poco fiables en aplicaciones del mundo real. Abordar estos problemas mediante la limpieza de datos ayuda a garantizar que el modelo aprenda patrones significativos en lugar de ruido o errores presentes en los datos brutos, evitando problemas como el sobreajuste.

Tareas habituales de limpieza de datos

La limpieza de datos implica diversas técnicas adaptadas a los problemas específicos de un conjunto de datos. Entre las tareas habituales se incluyen:

  • Tratamiento de los datos que faltan: Identificar las entradas con valores omitidos y decidir si se eliminan, se estiman (imputación) o se utilizan algoritmos robustos a los datos omitidos. Existen varias estrategias para tratar los datos que faltan, según el contexto.
  • Corregir errores e incoherencias: Corregir erratas, normalizar unidades o formatos (por ejemplo, formatos de fecha, mayúsculas) y resolver puntos de datos contradictorios. Esto es crucial para mantener la integridad de los datos.
  • Eliminar registros duplicados: Identificar y eliminar entradas idénticas o casi idénticas que puedan sesgar el análisis o el entrenamiento de modelos.
  • Manejo de valores atípicos: Detectar puntos de datos que difieren significativamente de otras observaciones. Dependiendo de la causa, los valores atípicos pueden eliminarse, corregirse o mantenerse. Se pueden emplear varios métodos de detección de valores atípicos.
  • Corrección de errores estructurales: Corrección de problemas relacionados con la estructura de los datos, como convenciones de nomenclatura incoherentes o entradas mal colocadas.

Aplicaciones en el mundo real

La limpieza de datos es indispensable en numerosas aplicaciones de IA/ML:

  1. Análisis de imágenes médicas: En conjuntos de datos sanitarios como el de Tumores Cerebrales, la limpieza de datos implica eliminar las exploraciones de baja calidad o corruptas (por ejemplo, imágenes borrosas), estandarizar los formatos de imagen (como DICOM), corregir los diagnósticos mal etiquetados y garantizar que se mantiene la privacidad de los datos de los pacientes de acuerdo con normativas como la HIPAA. Los datos limpios son vitales para entrenar modelos de diagnóstico fiables. Los Institutos Nacionales de Salud (NIH ) hacen hincapié en la calidad de los datos en la investigación biomédica. Más información sobre la IA en la asistencia sanitaria.
  2. Gestión de inventarios minoristas: Para los sistemas que utilizan la visión por ordenador para hacer un seguimiento de las existencias, como los que potencialmente utilizan el conjunto de datos SKU-110K, la limpieza implica corregir los productos mal identificados en las imágenes, eliminar las entradas duplicadas causadas por errores de escaneado, normalizar los nombres o códigos de los productos en distintas fuentes de datos y tratar las incoherencias en los registros de ventas utilizados para la previsión de la demanda o los sistemas de recomendación. Esto garantiza recuentos de existencias precisos y operaciones eficientes en la cadena de suministro, contribuyendo a lograr la eficiencia del comercio minorista con IA. Las plataformas como Google Cloud AI for Retail suelen basarse en datos de entrada limpios.

Limpieza de datos frente a conceptos relacionados

Es importante distinguir la limpieza de datos de los pasos relacionados con la preparación de datos:

  • Preprocesamiento de datos: Es un término más amplio que engloba la limpieza de datos, pero también incluye otras transformaciones para preparar los datos para los modelos de ML, como la normalización (escalado de características numéricas), la codificación de variables categóricas y la extracción de características. Mientras que la limpieza se centra en corregir errores, el preprocesamiento se centra en formatear los datos para los algoritmos. Para más detalles, consulta la guía deUltralytics sobre el preprocesamiento de datos anotados.
  • Etiquetado de datos: Es el proceso de añadir etiquetas o anotaciones informativas a los datos brutos, como dibujar recuadros alrededor de los objetos de las imágenes para el aprendizaje supervisado. La limpieza de datos puede implicar la corrección de etiquetas incorrectas identificadas durante las comprobaciones de calidad, pero es distinta del acto inicial de etiquetado. La guía Recogida y anotación de datos proporciona información sobre el etiquetado. Ultralytics HUB ofrece herramientas para gestionar conjuntos de datos etiquetados.
  • Aumento de datos: Esta técnica aumenta artificialmente el tamaño y la diversidad del conjunto de datos de entrenamiento creando copias modificadas de los datos existentes (por ejemplo, girando las imágenes, cambiando el brillo). El aumento de datos pretende mejorar la generalización y solidez del modelo, mientras que la limpieza de datos se centra en mejorar la calidad de los datos originales. Más información en La guía definitiva para el aumento de datos en 2025.

La limpieza de datos es una práctica fundamental, a menudo iterativa, que aumenta significativamente la fiabilidad y el rendimiento de los sistemas de IA al garantizar que los datos subyacentes son sólidos. Herramientas como la biblioteca Pandas se utilizan habitualmente para tareas de manipulación y limpieza de datos en flujos de trabajo de ML Python. Garantizar la calidad de los datos mediante una limpieza rigurosa es vital para desarrollar una IA fiable, especialmente cuando se trabaja con tareas complejas de visión por ordenador (VC) o conjuntos de datos de referencia a gran escala como COCO o ImageNet.

Leer todo