Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Preprocesamiento de Datos

Domine el preprocesamiento de datos para el aprendizaje automático. Aprenda técnicas como la limpieza, el escalado y la codificación para mejorar la precisión y el rendimiento del modelo.

El preprocesamiento de datos es un paso crucial en el pipeline de aprendizaje automático (ML) que implica la limpieza, transformación y organización de los datos brutos para que sean adecuados para el entrenamiento y la construcción de modelos. Los datos brutos del mundo real suelen estar incompletos, ser inconsistentes y pueden contener errores. El preprocesamiento convierte estos datos desordenados en un formato limpio y bien estructurado, lo cual es esencial para que un modelo aprenda eficazmente. La calidad de las predicciones de un modelo depende en gran medida de la calidad de los datos con los que se entrena, lo que convierte el preprocesamiento de datos en una práctica fundamental para lograr una alta precisión y un rendimiento fiable en los sistemas de IA.

Tareas clave en el preprocesamiento de datos

El preprocesamiento de datos es un término amplio que abarca una variedad de técnicas para preparar los datos. Los pasos específicos dependen del conjunto de datos y de la tarea de ML, pero las tareas comunes incluyen:

  • Limpieza de Datos: Este es el proceso de identificar y corregir o eliminar errores, inconsistencias y valores faltantes de un conjunto de datos. Esto podría implicar rellenar los datos que faltan utilizando métodos estadísticos o eliminar las entradas duplicadas. Los datos limpios son la piedra angular de cualquier modelo fiable.
  • Transformación de datos: Esto implica cambiar la escala o la distribución de los datos. Una técnica común es la normalización, que escala las características numéricas a un rango estándar (por ejemplo, de 0 a 1) para evitar que las características con escalas más grandes dominen el proceso de aprendizaje. Puede obtener más información sobre varios métodos de escalado en la documentación de preprocesamiento de scikit-learn.
  • Ingeniería de características: Este es el proceso creativo de crear nuevas características a partir de las existentes para mejorar el rendimiento del modelo. Esto podría implicar la combinación de características, la descomposición de las mismas o el uso del conocimiento del dominio para extraer información más significativa. Un concepto relacionado es la extracción de características, que reduce automáticamente la dimensionalidad de los datos.
  • Codificación de Datos Categóricos: Muchos algoritmos de ML requieren entrada numérica. El preprocesamiento a menudo implica convertir datos categóricos (como etiquetas de texto) en un formato numérico a través de técnicas como la codificación one-hot.
  • Redimensionamiento y Aumento: En visión artificial (CV), el preprocesamiento incluye el redimensionamiento de imágenes a una dimensión uniforme. También puede ir seguido de aumento de datos, que expande artificialmente el conjunto de datos mediante la creación de versiones modificadas de las imágenes.

Aplicaciones de IA/ML en el mundo real

El preprocesamiento de datos es un requisito universal en todos los dominios de la IA. Su aplicación es fundamental para el éxito tanto en tareas simples como complejas.

  1. Análisis de imágenes médicas: Antes de que se pueda entrenar un modelo YOLO para detectar tumores en exploraciones de resonancia magnética de un conjunto de datos como el conjunto de datos de tumores cerebrales, las imágenes deben preprocesarse. Esto implica normalizar los valores de intensidad de los píxeles para tener en cuenta las diferencias en los equipos de exploración, redimensionar todas las imágenes a un tamaño de entrada consistente requerido por el backbone del modelo y limpiar el conjunto de datos para eliminar archivos corruptos o ejemplos mal etiquetados. Esto asegura que la red neuronal convolucional (CNN) aprenda las verdaderas características patológicas de un modelo en lugar de las variaciones en las imágenes. Puede ver más sobre esto en nuestro blog sobre el uso de YOLO para la detección de tumores.
  2. Previsión Minorista Impulsada por IA: Para un modelo que predice la demanda de los clientes en el comercio minorista, los datos de ventas sin procesar a menudo contienen registros de transacciones faltantes, nombres de productos inconsistentes y características en escalas muy diferentes (por ejemplo, 'precio del artículo' frente a 'número de artículos vendidos'). El preprocesamiento aquí implica la imputación de cifras de ventas faltantes, la estandarización de los nombres de los productos y la normalización de las características numéricas para que el algoritmo de modelado predictivo pueda ponderar eficazmente la importancia de cada factor. Una visión general del preprocesamiento para los negocios destaca estos pasos.

Preprocesamiento de datos vs. Conceptos relacionados

Es útil diferenciar el preprocesamiento de datos de otros términos relacionados con la gestión de datos.

  • Limpieza de Datos: Como se ha mencionado, la limpieza de datos es un subconjunto del preprocesamiento de datos. Si bien el preprocesamiento es todo el proceso de preparación de los datos para un modelo, la limpieza se centra específicamente en corregir errores, manejar los valores que faltan y eliminar las inconsistencias dentro del conjunto de datos sin procesar.
  • Aumento de Datos: El aumento de datos es una técnica utilizada para aumentar artificialmente el tamaño de los datos de entrenamiento. Si bien es parte de la preparación de los datos para el entrenamiento, normalmente se aplica después de que se hayan completado los pasos iniciales de preprocesamiento, como la limpieza y el cambio de tamaño, en el conjunto de datos original. El objetivo del aumento es mejorar la generalización del modelo, mientras que el preprocesamiento tiene como objetivo hacer que los datos originales sean utilizables.
  • Análisis de Datos: El análisis de datos es un campo mucho más amplio que implica el examen de conjuntos de datos para extraer conclusiones y apoyar la toma de decisiones. El preprocesamiento de datos es el primer paso fundamental dentro de un flujo de trabajo de análisis de datos, que también incluye el análisis exploratorio de datos (EDA), el modelado y la visualización de datos.

Plataformas como Ultralytics HUB pueden ayudar a gestionar los conjuntos de datos y a agilizar el ciclo de vida del ML, desde la preparación de los datos hasta el despliegue del modelo. La guía sobre el preprocesamiento de datos anotados proporciona más información práctica.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles