Preprocesamiento de datos
Domine el preprocesamiento de datos para el aprendizaje automático. Aprenda técnicas como la limpieza, el escalado y la codificación para mejorar la precisión y el rendimiento de los modelos.
El preprocesamiento de datos es un paso crucial en el proceso de aprendizaje automático que consiste en limpiar, transformar y organizar los datos brutos para hacerlos aptos para el entrenamiento y la creación de modelos. Los datos brutos del mundo real suelen ser incompletos, incoherentes y pueden contener errores. El preprocesamiento convierte estos datos desordenados en un formato limpio y bien estructurado, esencial para que un modelo aprenda con eficacia. La calidad de las predicciones de un modelo depende en gran medida de la calidad de los datos con los que se ha entrenado, por lo que el preprocesamiento de datos es una práctica fundamental para lograr una gran precisión y un rendimiento fiable en los sistemas de IA.
Tareas clave en el preprocesamiento de datos
El preprocesamiento de datos es un término amplio que engloba diversas técnicas para preparar los datos. Los pasos específicos dependen del conjunto de datos y de la tarea de ML, pero las tareas comunes incluyen:
- Depuración de datos: Es el proceso de identificar y corregir o eliminar errores, incoherencias y valores omitidos de un conjunto de datos. Puede consistir en completar los datos que faltan mediante métodos estadísticos o eliminar las entradas duplicadas. Los datos limpios son la piedra angular de cualquier modelo fiable.
- Transformación de datos: Consiste en cambiar la escala o la distribución de los datos. Una técnica habitual es la normalizaciónque escala las características numéricas a un rango estándar (por ejemplo, de 0 a 1) para evitar que las características con escalas más grandes dominen el proceso de aprendizaje. Puede obtener más información sobre los distintos métodos de escalado en la documentación de preprocesamiento de scikit-learn.
- Ingeniería de características: Se trata del proceso creativo de crear nuevas características a partir de las existentes para mejorar el rendimiento del modelo. Puede consistir en combinar características, descomponerlas o utilizar el conocimiento del dominio para extraer información más significativa. Un concepto relacionado es extracción de característicasque reduce automáticamente la dimensionalidad de los datos.
- Codificación de datos categóricos: Muchos algoritmos de ML requieren datos numéricos. El preprocesamiento suele implicar la conversión de datos categóricos (como etiquetas de texto) a un formato numérico mediante técnicas como la codificación de un solo paso.
- Redimensionamiento y aumento: En visión por computador (CV), el preprocesamiento incluye el redimensionamiento de las imágenes a una dimensión uniforme. También puede ir seguido de aumento de datosque amplía artificialmente el conjunto de datos creando versiones modificadas de las imágenes.
Aplicaciones AI/ML en el mundo real
El preprocesamiento de datos es un requisito universal en todos los dominios de la IA. Su aplicación es fundamental para el éxito tanto en tareas sencillas como complejas.
- Análisis de imágenes médicas: Antes de entrenar un modelo YOLO para detectar tumores en resonancias magnéticas de un conjunto de datos como el de tumores cerebrales, es necesario preprocesar las imágenes. Esto implica normalizar los valores de intensidad de los píxeles para tener en cuenta las diferencias en los equipos de escaneado, redimensionar todas las imágenes a un tamaño de entrada coherente requerido por la columna vertebral del modelo y limpiar el conjunto de datos para eliminar archivos corruptos o ejemplos mal etiquetados. Esto garantiza que la red neuronal convolucional (CNN ) aprenda las verdaderas características patológicas del modelo en lugar de las variaciones en las imágenes. Puede obtener más información en nuestro blog sobre el uso de YOLO para la detección de tumores.
- Predicción del comercio minorista con IA: Para un modelo que predice la demanda de los clientes en el comercio minorista, los datos de ventas brutos a menudo contienen registros de transacciones que faltan, nombres de productos incoherentes y características en escalas muy diferentes (por ejemplo, "precio del artículo" frente a "número de artículos vendidos"). El preprocesamiento consiste en imputar las cifras de ventas que faltan, normalizar los nombres de los productos y normalizar las características numéricas para que el algoritmo de modelización predictiva pueda sopesar eficazmente la importancia de cada factor. Una visión general del preprocesamiento para las empresas pone de relieve estos pasos.
Preprocesamiento de datos frente a conceptos afines
Es útil diferenciar el preprocesamiento de datos de otros términos relacionados con la gestión de datos.
- Limpieza de datos: Como ya se ha mencionado, la limpieza de datos es un subconjunto del preprocesamiento de datos. Mientras que el preprocesamiento es todo el proceso de preparación de los datos para un modelo, la limpieza se centra específicamente en corregir errores, tratar los valores que faltan y eliminar incoherencias en el conjunto de datos sin procesar.
- Aumento de datos: El aumento de datos es una técnica utilizada para aumentar artificialmente el tamaño de los datos de entrenamiento. Aunque forma parte de la preparación de los datos para el entrenamiento, normalmente se aplica después de haber completado los pasos iniciales de preprocesamiento, como la limpieza y el redimensionamiento del conjunto de datos original. El objetivo del aumento es mejorar la generalización del modelo, mientras que el preprocesamiento pretende que los datos originales sean utilizables.
- Análisis de datos: El análisis de datos es un campo mucho más amplio que implica el examen de conjuntos de datos para extraer conclusiones y apoyar la toma de decisiones. El preprocesamiento de datos es el primer paso fundamental dentro de un flujo de trabajo de análisis de datos, que también incluye el análisis exploratorio de datos (EDA), el modelado y la visualización de datos.
Plataformas como Ultralytics HUB pueden ayudar a gestionar conjuntos de datos y agilizar el ciclo de vida de ML, desde la preparación de los datos hasta la implantación de modelos. La guía sobre preprocesamiento de datos anotados ofrece más información práctica.