Regularización
Descubra cómo la regularización evita el sobreajuste en el aprendizaje automático. Aprenda a implementar el abandono y la disminución de peso utilizando Ultralytics para mejorar la generalización del modelo.
La regularización es un conjunto de técnicas utilizadas en el
aprendizaje automático para evitar que los modelos
se vuelvan demasiado complejos y mejorar su capacidad para generalizar a datos nuevos y desconocidos. En el proceso de entrenamiento, un
modelo se esfuerza por minimizar su error, a menudo aprendiendo patrones intrincados dentro de los
datos de entrenamiento. Sin embargo, sin restricciones, el
modelo puede comenzar a memorizar ruido y valores atípicos, un problema conocido como
sobreajuste. La regularización aborda este problema añadiendo una
penalización a la función de pérdida del modelo, lo que
desalienta de manera efectiva los valores extremos de los parámetros y obliga al algoritmo a aprender patrones más suaves y robustos.
Conceptos y técnicas fundamentales
El principio de regularización se compara a menudo con la
navaja de Occam, lo que sugiere que la solución más simple es
normalmente la correcta. Al restringir el modelo, los desarrolladores se aseguran de que se centre en las características más significativas de
los datos en lugar de en correlaciones accidentales.
Se utilizan varios métodos comunes para implementar la regularización en los marcos modernos
de aprendizaje profundo:
-
Regularización L1 y L2: Estas técnicas añaden un término de penalización basado en la magnitud de los pesos del modelo.
La regularización L2, también conocida como
regresión Ridge
o decaimiento de pesos, penaliza fuertemente los pesos grandes, lo que fomenta que sean pequeños y difusos. La regularización L1, o
regresión Lasso, puede llevar algunos
pesos a cero, realizando eficazmente la selección de características.
-
Dropout: Utilizado específicamente en
redes neuronales, una
capa de dropout desactiva aleatoriamente un porcentaje de
neuronas durante el entrenamiento. Esto obliga a la red a desarrollar vías redundantes para identificar características, lo que garantiza que ninguna
neurona se convierta en un cuello de botella para una predicción específica.
-
Aumento de datos: Aunque se trata principalmente de un paso de preprocesamiento,
el aumento de datos actúa como un potente
regularizador. Al ampliar artificialmente el conjunto de datos con versiones modificadas de imágenes (rotaciones, volteos, cambios de color
), el modelo se expone a una mayor variabilidad, lo que evita que memorice los ejemplos estáticos originales.
-
Detección temprana: consiste en supervisar el rendimiento del modelo en
los datos de validación durante el entrenamiento. Si el
error de validación comienza a aumentar mientras el error de entrenamiento disminuye, el proceso se detiene para evitar que el modelo
aprenda ruido.
Aplicaciones en el mundo real
La regularización es indispensable para implementar sistemas de IA fiables en diversas industrias donde la variabilidad de los datos es
alta.
-
Conducción autónoma: en
las soluciones de IA para automoción, los modelos de visión artificial
deben detect y señales de tráfico en diversas condiciones meteorológicas. Sin regularización, un modelo
podría memorizar condiciones de iluminación específicas del conjunto de entrenamiento y fallar en el mundo real. Técnicas como
la disminución de peso garantizan que el sistema de detección
se generalice bien a la lluvia, la niebla o el deslumbramiento, lo cual es fundamental para la seguridad de
los vehículos autónomos.
-
Imágenes médicas: al realizar
análisis de imágenes médicas, los conjuntos de datos suelen
tener un tamaño limitado debido a cuestiones de privacidad o a la rareza de las afecciones. El sobreajuste es un riesgo importante en este caso.
Los métodos de regularización ayudan a que los modelos entrenados para detect en radiografías o resonancias magnéticas sigan siendo precisos con los datos de nuevos pacientes
, lo que contribuye a obtener mejores resultados diagnósticos en
la IA aplicada a la asistencia sanitaria.
Aplicación en Python
Las bibliotecas modernas facilitan la aplicación de la regularización mediante hiperparámetros. El siguiente ejemplo muestra
cómo aplicarla. dropout y weight_decay al entrenar al
YOLO26 modelo.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train with regularization hyperparameters
# 'dropout' adds randomness, 'weight_decay' penalizes large weights to prevent overfitting
model.train(data="coco8.yaml", epochs=100, dropout=0.5, weight_decay=0.0005)
La gestión de estos experimentos y el seguimiento del impacto de los diferentes valores de regularización en el rendimiento se pueden gestionar
sin problemas a través de la Ultralytics , que ofrece herramientas para registrar
y comparar las ejecuciones de entrenamiento.
Regularización frente a conceptos afines
Es útil distinguir la regularización de otros términos de optimización y preprocesamiento:
-
Regularización frente a normalización: La normalización consiste en escalar los datos de entrada a un rango estándar para acelerar la convergencia. Aunque técnicas como
normalización por lotes pueden tener un
regularización, su objetivo principal es estabilizar la dinámica de aprendizaje, mientras que la regularización penaliza explícitamente la complejidad.
penaliza explícitamente la complejidad.
-
Regularización frente a
ajuste de hiperparámetros: los parámetros de regularización (como la tasa de abandono o la penalización L2) son en sí mismos hiperparámetros. El ajuste de hiperparámetros
es el proceso más amplio de búsqueda de los valores óptimos para estos ajustes, a menudo para equilibrar la
relación entre sesgo y varianza.
-
Regularización frente a aprendizaje conjunto: Los métodos ensemble combinan predicciones de múltiples modelos para reducir la varianza y mejorar la generalización. Aunque
regularización, lo hacen agregando diversos modelos en lugar de restringir el aprendizaje de un único modelo.
el aprendizaje de un único modelo.