Optimice los modelos de aprendizaje automático con datos de validación para evitar el sobreajuste, ajustar los hiperparámetros y garantizar un rendimiento sólido en el mundo real.
Los datos de validación son una muestra de datos retenidos del proceso de entrenamiento que se utiliza para proporcionar una evaluación imparcial del ajuste de un modelo mientras se ajustan sus hiperparámetros. La función principal del conjunto de validación es guiar el desarrollo de un modelo de aprendizaje automático (AM ) ofreciendo una evaluación frecuente e independiente de su rendimiento. Este bucle de retroalimentación es esencial para construir modelos que no sólo funcionen bien con los datos que han visto, sino que también se generalicen eficazmente a nuevos datos no vistos, un concepto fundamental para crear sistemas robustos de Inteligencia Artificial (IA).
El principal objetivo de los datos de validación es evitar el sobreajuste. La sobreadaptación se produce cuando un modelo aprende demasiado bien los datos de entrenamiento, captando ruido y detalles que no se aplican a los nuevos datos, lo que perjudica su rendimiento. Al probar el modelo con el conjunto de validación a intervalos regulares (por ejemplo, después de cada época), los desarrolladores pueden controlar su error de generalización. Si el rendimiento en los datos de entrenamiento sigue mejorando mientras que el rendimiento en los datos de validación se estanca o se degrada, es un signo claro de sobreajuste.
Este proceso de evaluación es crucial para el ajuste de hiperparámetros. Los hiperparámetros son ajustes de configuración externos al modelo, como la tasa de aprendizaje o el tamaño del lote, que no se aprenden a partir de los datos. El conjunto de validación permite experimentar con diferentes combinaciones de hiperparámetros para encontrar el conjunto que produce el mejor rendimiento. Este proceso iterativo es una parte esencial de la selección y optimización de modelos.
En un proyecto típico de ML, el conjunto de datos se divide en tres subconjuntos, y es fundamental comprender sus distintas funciones. Un enfoque común de la división de datos consiste en asignar el 70% al entrenamiento, el 15% a la validación y el 15% a las pruebas.
Mantener una separación estricta, especialmente entre los conjuntos de validación y de prueba, es fundamental para evaluar con precisión las capacidades de un modelo y evitar el compromiso sesgo-varianza.
Cuando la cantidad de datos disponibles es limitada, se suele emplear una técnica denominada validación cruzada (en concreto, validación cruzada de K pliegues). En este caso, los datos de entrenamiento se dividen en "K" subconjuntos (pliegues). El modelo se entrena K veces, utilizando cada vez K-1 pliegues para el entrenamiento y el pliegue restante como conjunto de validación. A continuación, se calcula la media del rendimiento de las K ejecuciones. Esto proporciona una estimación más robusta del rendimiento del modelo y hace un mejor uso de los datos limitados, como se explica en recursos como la documentación scikit-learn y la guía Ultralytics K-Fold Cross-Validation.
En resumen, los datos de validación son la piedra angular de la creación de modelos de IA fiables y de alto rendimiento con marcos como PyTorch y TensorFlow. Permiten un ajuste eficaz de los hiperparámetros, la selección de modelos y la prevención del sobreajuste, lo que garantiza que los modelos generalicen más allá de los datos en los que se han entrenado. Plataformas como Ultralytics HUB ofrecen herramientas integradas para gestionar eficazmente estos conjuntos de datos.