Insuficiente
Aprenda a identificar, prevenir y abordar la inadaptación en modelos de aprendizaje automático con consejos de expertos, estrategias y ejemplos reales.
El infraajuste es un problema común en el aprendizaje automático (AM) cuando un modelo es demasiado simple para captar los patrones subyacentes en los datos de entrenamiento. Esta simplicidad le impide aprender la relación entre las características de entrada y la variable objetivo, lo que da lugar a un rendimiento deficiente tanto en los datos con los que se entrenó como en los nuevos datos que no se han visto. Un modelo infraajustado tiene un sesgo elevado, lo que significa que hace suposiciones fuertes, a menudo incorrectas, sobre los datos. El resultado es un modelo que no alcanza un alto nivel de precisión y no puede generalizar bien.
Infraadaptación Vs. Sobreajuste
La inadaptación y la sobreadaptación son dos retos clave en ML relacionados con la capacidad de un modelo para generalizar a partir de datos de entrenamiento a nuevos datos. Representan dos extremos en el espectro de la complejidad del modelo.
- Ajuste insuficiente: El modelo es demasiado simple y tiene un sesgo elevado. No aprende la estructura subyacente de los datos, lo que se traduce en un valor elevado de la función de pérdida y un rendimiento deficiente tanto en el conjunto de datos de entrenamiento como en el de validación.
- Sobreajuste: El modelo es demasiado complejo y tiene una varianza elevada. Aprende demasiado bien los datos de entrenamiento, incluidos el ruido y las fluctuaciones aleatorias. Esto da lugar a un rendimiento excelente en el conjunto de datos de entrenamiento, pero a un rendimiento pobre en los datos no vistos, ya que el modelo ha memorizado esencialmente los ejemplos de entrenamiento en lugar de aprender patrones generales.
El objetivo final del ML es encontrar un equilibrio entre ambos, un concepto conocido como equilibrio entre sesgo y varianza, para crear un modelo que se generalice eficazmente a nuevos escenarios del mundo real. El análisis de las curvas de aprendizaje es un método común para diagnosticar si un modelo está mal ajustado, sobreajustado o bien ajustado.
Causas y soluciones de la inadaptación
Identificar y abordar la inadaptación es crucial para construir modelos eficaces. El problema suele deberse a varias causas comunes, cada una de ellas con sus correspondientes soluciones.
- El modelo es demasiado simple: Utilizar un modelo lineal para un problema complejo y no lineal es una causa clásica de ajuste insuficiente.
- Solución: Aumentar la complejidad del modelo. Esto podría implicar cambiar a una arquitectura de modelo más potente, como una red neuronal más profunda o un modelo preentrenado más grande, como pasar de una variante de modelo YOLO de Ultralytics más pequeña a una más grande. Puede explorar varias comparaciones de modelos YOLO para seleccionar una arquitectura más adecuada.
- Características insuficientes o de mala calidad: Si las características de entrada proporcionadas al modelo no contienen suficiente información para realizar predicciones precisas, el modelo no se ajustará lo suficiente.
- Formación insuficiente: Puede que el modelo no se haya entrenado lo suficiente épocas para aprender los patrones de los datos.
- Regularización excesiva: Técnicas como Regularización L1 y L2 o alta abandono se utilizan para evitar el sobreajuste, pero si son demasiado agresivos, pueden restringir demasiado el modelo y provocar un ajuste insuficiente.
- Solución: Reducir el grado de regularización. Esto podría significar reducir el término de penalización en las funciones de regularización o reducir la tasa de abandono. Seguir las mejores prácticas para el entrenamiento de modelos puede ayudar a encontrar el equilibrio adecuado.
Ejemplos reales de inadaptación
- Clasificador de imágenes sencillo: Imagine que entrena una red neuronal convolucional (CNN ) muy básica con sólo una o dos capas en una tarea compleja de clasificación de imágenes, como la identificación de miles de categorías de objetos en el conjunto de datos ImageNet. La capacidad limitada del modelo le impediría aprender las intrincadas características necesarias para distinguir entre tantas clases, lo que se traduciría en una baja precisión tanto en los datos de entrenamiento como en los de prueba. Frameworks como PyTorch y TensorFlow proporcionan las herramientas necesarias para construir arquitecturas más sofisticadas que permitan superar este problema.
- Mantenimiento predictivo básico: Considere la posibilidad de utilizar un modelo de regresión lineal simple para el modelado predictivo con el fin de estimar cuándo fallará una máquina basándose únicamente en su temperatura de funcionamiento. Si los fallos de la máquina están realmente influenciados por una compleja interacción no lineal de factores como la vibración, la edad y la presión, el modelo lineal simple no se ajustará bien. No puede captar la verdadera complejidad del sistema, lo que da lugar a un rendimiento predictivo deficiente y a una incapacidad para anticiparse a los fallos con precisión. Un modelo más complejo, como una máquina de aumento de gradiente o una red neuronal, sería más adecuado.