Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Preprocesamiento de Datos

Domine el preprocesamiento de datos para el aprendizaje automático. Aprenda técnicas como la limpieza, el escalado y la codificación para mejorar la precisión y el rendimiento del modelo.

El preprocesamiento de datos es la fase inicial crítica del proceso de aprendizaje automático, en la que los datos brutos se transforman en un formato limpio y comprensible para los algoritmos. en un formato limpio y comprensible para los algoritmos. Los datos del mundo real suelen ser incompletos, incoherentes y plagados de errores o valores atípicos. Si un modelo se entrena con datos tan defectuosos, el modelo predictivo resultante predictivo resultante producirá resultados resultados imprecisos, un fenómeno conocido como "basura dentro, basura fuera". El preprocesamiento el preprocesamiento garantiza que los datos de datos de entrenamiento sean de alta calidad, lo que es esencial para lograr una precisión y estabilidad óptimas del modelo.

Técnicas básicas de preprocesamiento

Los pasos específicos del preprocesamiento varían en función del tipo de datos (texto, imágenes o datos tabulares), pero en general incluyen varias tareas fundamentales. pero, por lo general, incluyen varias tareas básicas.

  • Limpieza de datos: Esto implica tratar los valores que faltan, corregir los datos ruidosos y resolver las incoherencias. Las técnicas pueden incluir la imputación con medios estadísticos o eliminar por completo los registros corruptos con herramientas como Pandas.
  • Normalización y escalado: Los algoritmos suelen funcionar mal cuando las características tienen escalas muy diferentes (por ejemplo, edad frente a ingresos). La normalización ajusta las columnas numéricas a una escala común, como de 0 a 1, evitando que los valores más grandes dominen el proceso de descenso de gradiente. proceso de descenso de gradiente. Puede obtener más información sobre estrategias de escala en la Scikit-learn.
  • Codificación: Los modelos de aprendizaje automático suelen requerir datos numéricos. Los datos categóricos (como "Rojo", "Verde", "Azul") deben convertirse en números mediante métodos como codificación one-hot o codificación de etiquetas.
  • Reducción de la dimensionalidad: Técnicas como Análisis de Componentes Principales (ACP) reducen el número de variables de entrada, reteniendo sólo la información más esencial para evitar el sobreajuste y acelerar el entrenamiento. y acelerar el entrenamiento.
  • Redimensionamiento de imágenes: En visión por ordenador (CV), las imágenes a menudo deben a una dimensión fija (por ejemplo, 640x640 píxeles) para ajustarse a la capa de entrada de una red neuronal convolucional (CNN). red neuronal convolucional (CNN).

Aplicaciones en el mundo real

El preprocesamiento de datos es omnipresente en todos los sectores y constituye la columna vertebral de los sistemas de IA fiables.

  1. Análisis de imágenes médicas: A la hora de detectar anomalías en resonancias magnéticas o tomografías computarizadas, el preprocesamiento es vital. Las exploraciones en bruto varían en contraste y resolución en función de la máquina utilizada. El preprocesamiento normaliza la intensidad de los píxeles y redimensiona las imágenes para que el agente de IA se centre en las características patológicas artefactos técnicos. Por ejemplo, los investigadores YOLO11 para la detección de tumores para mejorar la precisión del diagnóstico.
  2. Detección de fraudes financieros: En el sector bancario, los registros de transacciones suelen estar desordenados y desequilibrados. El preprocesamiento consiste en eliminar los errores de fecha y hora y normalizar los importes de las transacciones. Y lo que es más importante equilibrar el conjunto de datos -dado que el fraude es poco frecuente- utilizando técnicas de muestreo para garantizar que el modelo de detección de anomalías identifique eficazmente los casos de fraude. modelo de detección de anomalías identifique la actividad sospechosa. IBM ofrece información sobre cómo la preparación de datos da soporte a estos análisis críticos para el negocio.

Preprocesamiento con Ultralytics YOLO

Los marcos de trabajo modernos suelen automatizar partes importantes del proceso de preprocesamiento. Cuando se utiliza YOLO11tareas como el cambio de tamaño de la imagen, el escalado de los valores de los píxeles y el formateo de las etiquetas se gestionan internamente durante el proceso de formación. Esto permite a los desarrolladores centrarse en tareas de más alto nivel como como la evaluación y el despliegue del modelo.

El siguiente ejemplo muestra cómo YOLO11 gestiona automáticamente el cambio de tamaño de las imágenes a través de la función imgsz argumento durante el entrenamiento:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)

Diferenciar conceptos relacionados

Resulta útil distinguir el preprocesamiento de datos de términos similares en el flujo de trabajo del aprendizaje automático:

  • frente al aumento de datos: Mientras que preprocesamiento formatea los datos para que sean utilizables (p. ej., redimensionamiento), el aumento consiste en crear nuevas variaciones sintéticas de los datos existentes (por ejemplo, girar, voltear) para aumentar la diversidad y la solidez del conjunto de datos. robustez. Puede obtener más información en nuestra sobre el aumento de datos.
  • frente a la ingeniería de características: El preprocesamiento se centra en la limpieza y el formateo de los datos brutos. La ingeniería de características es un paso más creativo que consiste en derivar nuevas variables significativas a partir de esos datos (por ejemplo, calcular el "precio por pie cuadrado" a partir del "precio" y la "superficie") para mejorar la calidad de los datos. "precio" y "superficie") para mejorar el el rendimiento del modelo.
  • vs. Etiquetado de datos: El etiquetado es el proceso manual o automatizado de anotar datos (como dibujar delimitadores) para crear la verdad sobre el terreno. El preprocesamiento prepara estas imágenes etiquetadas y las anotaciones para la red neuronal. red neuronal.

Al dominar el preprocesamiento de datos, los ingenieros sientan las bases para el éxito de los proyectos de IA. éxito de los proyectos de IA, garantizando modelos como YOLO11 y el próximo YOLO26 puedan rendir al máximo de su potencial. Para gestionar conjuntos de datos y automatizar estos flujos de trabajo, la Ultralytics Platform proporciona un entorno unificado para agilizar el desde los datos brutos hasta el modelo desplegado.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora