Subajuste (Underfitting)
Aprenda a identificar, prevenir y abordar el subajuste en modelos de machine learning con consejos de expertos, estrategias y ejemplos del mundo real.
El desajuste (underfitting) es un problema común en el aprendizaje automático (ML) donde un modelo es demasiado simple para capturar los patrones subyacentes en los datos de entrenamiento. Esta simplicidad impide que aprenda la relación entre las características de entrada y la variable objetivo, lo que lleva a un bajo rendimiento tanto en los datos con los que fue entrenado como en los datos nuevos y no vistos. Un modelo con desajuste tiene un alto sesgo, lo que significa que hace suposiciones fuertes, a menudo incorrectas, sobre los datos. Esto resulta en un modelo que no logra alcanzar un alto nivel de precisión y no puede generalizar bien.
Desajuste (Underfitting) vs. Sobreajuste (Overfitting)
El desajuste (underfitting) y el sobreajuste (overfitting) son dos retos clave en el ML que se relacionan con la capacidad de un modelo para generalizar a partir de los datos de entrenamiento a nuevos datos. Representan dos extremos en el espectro de la complejidad del modelo.
- Subajuste (Underfitting): El modelo es demasiado simple y tiene un alto sesgo. No logra aprender la estructura subyacente de los datos, lo que resulta en un valor alto de la función de pérdida y un rendimiento deficiente tanto en los conjuntos de datos de entrenamiento como en los de validación.
- Sobreajuste: El modelo es demasiado complejo y tiene una alta varianza. Aprende demasiado bien los datos de entrenamiento, incluyendo el ruido y las fluctuaciones aleatorias. Esto resulta en un excelente rendimiento en el conjunto de entrenamiento, pero un rendimiento pobre en los datos no vistos, ya que el modelo esencialmente ha memorizado los ejemplos de entrenamiento en lugar de aprender patrones generales.
El objetivo final en ML es lograr un equilibrio entre estos dos, un concepto conocido como la compensación sesgo-varianza, para crear un modelo que se generalice eficazmente a nuevos escenarios del mundo real. El análisis de las curvas de aprendizaje es un método común para diagnosticar si un modelo está subajustado, sobreajustado o bien ajustado.
Causas y soluciones para el subajuste (Underfitting)
Identificar y abordar el subajuste es crucial para construir modelos efectivos. El problema generalmente proviene de algunas causas comunes, cada una con soluciones correspondientes.
- El modelo es demasiado simple: El uso de un modelo lineal para un problema complejo y no lineal es una causa clásica de ajuste insuficiente (underfitting).
- Solución: Aumente la complejidad del modelo. Esto podría implicar el cambio a una arquitectura de modelo más potente, como una red neuronal más profunda o un modelo pre-entrenado más grande, como pasar de una variante de modelo Ultralytics YOLO más pequeña a una más grande. Puede explorar varias comparaciones de modelos YOLO para seleccionar una arquitectura más adecuada.
- Características Insuficientes o de Mala Calidad: Si las características de entrada proporcionadas al modelo no contienen suficiente información para realizar predicciones precisas, el modelo sufrirá un ajuste insuficiente (underfitting).
- Entrenamiento Insuficiente: Es posible que el modelo no haya sido entrenado lo suficiente épocas para aprender los patrones en los datos.
- Regularización excesiva: Técnicas como Regularización L1 y L2 o alta dropout Las tasas se utilizan para evitar el sobreajuste, pero si son demasiado agresivas, pueden restringir demasiado el modelo y causar un ajuste insuficiente.
- Solución: Reduzca la cantidad de regularización. Esto podría significar disminuir el término de penalización en las funciones de regularización o reducir la tasa de dropout. Seguir las mejores prácticas para el entrenamiento de modelos puede ayudar a encontrar el equilibrio adecuado.
Ejemplos del mundo real de ajuste insuficiente
- Clasificador de imágenes simple: Imagina entrenar una Red Neuronal Convolucional (CNN) muy básica con solo una o dos capas en una tarea compleja de clasificación de imágenes, como identificar miles de categorías de objetos en el conjunto de datos ImageNet. La capacidad limitada del modelo impediría que aprendiera las características intrincadas necesarias para distinguir entre tantas clases, lo que resultaría en una baja precisión tanto en los datos de entrenamiento como en los de prueba. Frameworks como PyTorch y TensorFlow proporcionan las herramientas para construir arquitecturas más sofisticadas para superar esto.
- Mantenimiento Predictivo Básico: Considere usar un modelo de regresión lineal simple para el modelado predictivo para estimar cuándo fallará una máquina basándose únicamente en su temperatura de funcionamiento. Si las fallas de la máquina están realmente influenciadas por una interacción compleja y no lineal de factores como la vibración, la antigüedad y la presión, el modelo lineal simple se ajustará de manera insuficiente. No puede capturar la verdadera complejidad del sistema, lo que lleva a un rendimiento predictivo deficiente y a la incapacidad de anticipar las fallas con precisión. Un modelo más complejo, como una máquina de boosting de gradiente o una red neuronal, sería más apropiado.