Regularización
Prevenga el sobreajuste y mejore la generalización del modelo con técnicas de regularización como L1, L2, dropout y parada temprana. ¡Aprenda más!
La regularización es un conjunto crucial de estrategias
aprendizaje automático (AM) diseñadas para mejorar
la capacidad de un modelo para generalizar a nuevos datos no vistos. Su objetivo principal es evitar
sobreajuste, un fenómeno común en el que un modelo aprende
el ruido y los detalles específicos de los
de los datos de entrenamiento en detrimento de su
datos válidos. Al introducir información adicional o restricciones -a menudo en forma de un término de penalización añadido a la función de pérdida- la regularización disuade al modelo de adaptarse a los datos.
función de pérdida, la regularizacióndisuade al modelo de
que el modelo se vuelva excesivamente complejo. El resultado es un sistema más robusto que mantiene una alta
precisión tanto en los datos
tanto en los datos de entrenamiento como en los de validación.
Técnicas Comunes de Regularización
Existen varios métodos establecidos para aplicar la regularización, cada uno de ellos dirigido a diferentes aspectos de la complejidad del modelo
y la dinámica de entrenamiento:
-
Regularización L1 y L2: Son las formas más tradicionales. La regularización L1 (Lasso) añade una penalización igual al valor absoluto de los coeficientes.
coeficientes, lo que puede llevar algunos pesos a cero, realizando efectivamente la selección de características. Regularización L2
(Ridge), ampliamente utilizada en el aprendizaje profundo (DL), añade
una penalización igual al cuadrado de la magnitud de los coeficientes, fomentando pesos del modelo más pequeños y difusos.
pesos del modelo.
-
Capa de abandono: Diseñada específicamente para
redes neuronales (NN), la capa de desactivación
desactiva aleatoriamente una fracción de neuronas durante cada paso de entrenamiento. Esto obliga a la red a aprender representaciones
representaciones redundantes y evita la dependencia de vías neuronales específicas, un concepto detallado en el
en el trabajo de investigación original.
-
Aumento de datos: En lugar de modificar la arquitectura del modelo, esta técnica amplía el conjunto de entrenamiento creando versiones modificadas de imágenes o puntos de datos existentes.
modificadas de imágenes o puntos de datos existentes. Las transformaciones como la rotación, la escala y la inversión ayudan al modelo a ser invariable a estos cambios.
invariante a estos cambios. Puede explorar
técnicas de aumento de datosYOLO para ver
cómo se aplica en la práctica.
-
Parada anticipada: Este enfoque práctico consiste en controlar el rendimiento del modelo en un conjunto de validación durante el entrenamiento. Si la
de validación deja de mejorar o empieza a aumentar, el proceso de
proceso de entrenamiento se detiene inmediatamente. De este modo se evita que el
Esto evita que el modelo siga aprendiendo ruido en las fases posteriores del entrenamiento.
-
Suavizado de etiquetas: Esta técnica ajusta las etiquetas objetivo durante el entrenamiento para que el modelo no se vea obligado a predecir con un 100% de confianza (por ejemplo, 1,0 de probabilidad).
(por ejemplo, 1,0 de probabilidad). Al suavizar los objetivos (por ejemplo, a 0,9), el suavizado de etiquetas impide que la red
red se confíe demasiado, lo que es beneficioso para tareas como la
clasificación de imágenes.
Regularización en Python
Las bibliotecas modernas como Ultralytics facilitan la aplicación de estas técnicas mediante argumentos de formación. En
siguiente ejemplo muestra cómo entrenar un YOLO11 modelo
con regularización L2 (controlada por weight_decay) y el abandono para garantizar un modelo sólido.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model with specific regularization parameters
# 'weight_decay' applies L2 regularization
# 'dropout' applies a dropout layer with a 10% probability
results = model.train(data="coco8.yaml", epochs=50, weight_decay=0.0005, dropout=0.1)
Aplicaciones en el mundo real
La regularización es indispensable para implantar sistemas de IA fiables en diversos sectores.
-
Conducción autónoma: En
IA para soluciones de automoción, los modelos de visión por ordenador
deben detect peatones y señales de tráfico en diversas condiciones meteorológicas. Sin regularización, un modelo
podría memorizar condiciones de iluminación específicas del conjunto de entrenamiento y fallar en el mundo real. Técnicas como
como el decaimiento del peso garantizan que el sistema de detección se adapte bien a la lluvia, la niebla o el resplandor.
la lluvia, la niebla o el resplandor.
-
Imágenes médicas: Cuando se realizan
análisis de imágenes médicas, los conjuntos
limitados en tamaño. El sobreajuste es un riesgo importante. Los métodos de regularización, en particular
el aumento de datos y la detención temprana
a los modelos entrenados para detect anomalías en radiografías o resonancias magnéticas a seguir siendo precisos con los datos de nuevos pacientes, lo que permite obtener mejores resultados diagnósticos.
resultados diagnósticos.
Regularización frente a conceptos afines
Es útil distinguir la regularización de otros términos de optimización y preprocesamiento:
-
Regularización frente a normalización: La normalización consiste en escalar los datos de entrada a un rango estándar para acelerar la convergencia. Aunque técnicas como
normalización por lotes pueden tener un
regularización, su objetivo principal es estabilizar la dinámica de aprendizaje, mientras que la regularización penaliza explícitamente la complejidad.
penaliza explícitamente la complejidad.
-
Regularización frente a
Ajuste de hiperparámetros: Los parámetros de regularización (como la tasa de abandono o la penalización L2) son a su vez hiperparámetros. El ajuste de hiperparámetros
es el proceso más amplio de búsqueda de los valores óptimos para estos ajustes, a menudo utilizando herramientas como el
Ultralytics Tuner.
-
Regularización frente a aprendizaje conjunto: Los métodos ensemble combinan predicciones de múltiples modelos para reducir la varianza y mejorar la generalización. Aunque
regularización, lo hacen agregando diversos modelos en lugar de restringir el aprendizaje de un único modelo.
el aprendizaje de un único modelo.