Preprocesamiento de datos

Domine el preprocesamiento de datos para el aprendizaje automático. Aprenda técnicas como la limpieza, el escalado y la codificación para mejorar la precisión y el rendimiento de los modelos.

El preprocesamiento de datos es un paso crucial en el proceso de aprendizaje automático que consiste en limpiar, transformar y organizar los datos brutos para hacerlos aptos para el entrenamiento y la creación de modelos. Los datos brutos del mundo real suelen ser incompletos, incoherentes y pueden contener errores. El preprocesamiento convierte estos datos desordenados en un formato limpio y bien estructurado, esencial para que un modelo aprenda con eficacia. La calidad de las predicciones de un modelo depende en gran medida de la calidad de los datos con los que se ha entrenado, por lo que el preprocesamiento de datos es una práctica fundamental para lograr una gran precisión y un rendimiento fiable en los sistemas de IA.

Tareas clave en el preprocesamiento de datos

El preprocesamiento de datos es un término amplio que engloba diversas técnicas para preparar los datos. Los pasos específicos dependen del conjunto de datos y de la tarea de ML, pero las tareas comunes incluyen:

Depuración de datos: Es el proceso de identificar y corregir o eliminar errores, incoherencias y valores omitidos de un conjunto de datos. Puede consistir en completar los datos que faltan mediante métodos estadísticos o eliminar las entradas duplicadas. Los datos limpios son la piedra angular de cualquier modelo fiable.
Transformación de datos: Consiste en cambiar la escala o la distribución de los datos. Una técnica habitual es la normalizaciónque escala las características numéricas a un rango estándar (por ejemplo, de 0 a 1) para evitar que las características con escalas más grandes dominen el proceso de aprendizaje. Puede obtener más información sobre los distintos métodos de escalado en la documentación de preprocesamiento de scikit-learn.
Ingeniería de características: Se trata del proceso creativo de crear nuevas características a partir de las existentes para mejorar el rendimiento del modelo. Puede consistir en combinar características, descomponerlas o utilizar el conocimiento del dominio para extraer información más significativa. Un concepto relacionado es extracción de característicasque reduce automáticamente la dimensionalidad de los datos.
Codificación de datos categóricos: Muchos algoritmos de ML requieren datos numéricos. El preprocesamiento suele implicar la conversión de datos categóricos (como etiquetas de texto) a un formato numérico mediante técnicas como la codificación de un solo paso.
Redimensionamiento y aumento: En visión por computador (CV), el preprocesamiento incluye el redimensionamiento de las imágenes a una dimensión uniforme. También puede ir seguido de aumento de datosque amplía artificialmente el conjunto de datos creando versiones modificadas de las imágenes.

Aplicaciones AI/ML en el mundo real

El preprocesamiento de datos es un requisito universal en todos los dominios de la IA. Su aplicación es fundamental para el éxito tanto en tareas sencillas como complejas.

Análisis de imágenes médicas: Antes de entrenar un modelo YOLO para detectar tumores en resonancias magnéticas de un conjunto de datos como el de tumores cerebrales, es necesario preprocesar las imágenes. Esto implica normalizar los valores de intensidad de los píxeles para tener en cuenta las diferencias en los equipos de escaneado, redimensionar todas las imágenes a un tamaño de entrada coherente requerido por la columna vertebral del modelo y limpiar el conjunto de datos para eliminar archivos corruptos o ejemplos mal etiquetados. Esto garantiza que la red neuronal convolucional (CNN ) aprenda las verdaderas características patológicas del modelo en lugar de las variaciones en las imágenes. Puede obtener más información en nuestro blog sobre el uso de YOLO para la detección de tumores.
Predicción del comercio minorista con IA: Para un modelo que predice la demanda de los clientes en el comercio minorista, los datos de ventas brutos a menudo contienen registros de transacciones que faltan, nombres de productos incoherentes y características en escalas muy diferentes (por ejemplo, "precio del artículo" frente a "número de artículos vendidos"). El preprocesamiento consiste en imputar las cifras de ventas que faltan, normalizar los nombres de los productos y normalizar las características numéricas para que el algoritmo de modelización predictiva pueda sopesar eficazmente la importancia de cada factor. Una visión general del preprocesamiento para las empresas pone de relieve estos pasos.