Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Tasa de Aprendizaje

Descubra cómo la tasa de aprendizaje influye en el entrenamiento de los modelos. Descubra cómo optimizar el tamaño del paso para Ultralytics con el fin de lograr un rendimiento SOTA en la detección de objetos y mucho más.

La tasa de aprendizaje es una configuración crítica de ajuste de hiperparámetros que determina el tamaño del paso que da un modelo durante el proceso de optimización. En el contexto del entrenamiento de una red neuronal, controla cuánto se actualizan los pesos internos del modelo en respuesta al error estimado cada vez que el modelo procesa un lote de datos. Piénsese en ello como una persona que baja una montaña hacia un valle (el punto más bajo del error); la tasa de aprendizaje dicta la longitud de su zancada. Si la zancada es demasiado grande, podría pasar completamente por encima del valle y no llegar al fondo. Si la zancada es demasiado pequeña, llegar al destino podría llevar un tiempo impracticable .

El dilema de «Ricitos de Oro» en la optimización

Encontrar la tasa de aprendizaje óptima se describe a menudo como un acto de equilibrio dentro de los flujos de trabajo del aprendizaje automático. El objetivo es minimizar la función de pérdida, que mide la diferencia entre las predicciones del modelo y la verdad fundamental real. Este proceso depende en gran medida de un algoritmo de optimización, como el descenso estocástico del gradiente (SGD) o el Adam , para navegar por el panorama de pérdidas .

  • Tasa de aprendizaje demasiado alta: si el valor se establece demasiado alto, las actualizaciones de peso del modelo serán drásticas. Esto puede provocar el fenómeno de «sobrepasamiento», en el que el modelo no converge en una solución y, en cambio, oscila violentamente o diverge. Esta inestabilidad a veces puede desencadenar un problema de gradiente explosivo, lo que hace que el proceso de entrenamiento sea inútil.
  • Tasa de aprendizaje demasiado baja: Por el contrario, un tamaño de paso extremadamente pequeño garantiza que el modelo se mueva con cuidado hacia el mínimo, pero puede dar lugar a un subajuste porque el proceso de entrenamiento se vuelve agonizantemente lento. El modelo podría quedarse efectivamente atascado en un mínimo local o tardar miles de épocas adicionales en aprender patrones simples, desperdiciando recursos computacionales . Los investigadores suelen consultar la PyTorch sobre optimización para comprender cómo interactúan los diferentes algoritmos con estos valores.

Aplicaciones en el mundo real

El impacto de los ajustes de la tasa de aprendizaje es evidente en diversas industrias de alto riesgo en las que se implementan tareas de visión por computadora.

  1. Sistemas de conducción autónoma: En el desarrollo de vehículos autónomos, los ingenieros utilizan vastos conjuntos de datos para entrenar modelos de detección de objetos con el fin de identificar peatones y señales de tráfico. Al aplicar el aprendizaje por transferencia a un modelo preentrenado como YOLO26, los desarrolladores suelen utilizar una tasa de aprendizaje mucho menor que la que utilizarían durante el entrenamiento inicial. Este «ajuste fino» garantiza que el modelo aprenda los matices de entornos de conducción específicos (por ejemplo, carreteras nevadas frente a autopistas desérticas) sin borrar las capacidades generales de extracción de características que ya posee.
  2. Diagnóstico médico por imágenes: En el análisis de imágenes médicas, como la detección de tumores en resonancias magnéticas, la precisión es fundamental. Una tasa de aprendizaje elevada en este caso crea el riesgo de que el modelo pase por alto las sutiles diferencias de textura que distinguen el tejido maligno del benigno. Los profesionales suelen emplear una técnica denominada «calentamiento de la tasa de aprendizaje», que consiste en aumentar gradualmente la tasa desde cero hasta un valor objetivo para estabilizar las primeras etapas del entrenamiento, lo que garantiza que los pesos de la red neuronal se estabilicen en una configuración estable antes de que comience el aprendizaje agresivo. Puede obtener más información sobre estas estrategias en el Curso intensivo de aprendizajeGoogle .

Diferenciar términos relacionados

Es importante distinguir la tasa de aprendizaje de otros parámetros de entrenamiento, ya que a menudo se configuran en los mismos archivos de configuración, pero tienen fines diferentes:

  • Tasa de aprendizaje frente a tamaño del lote: mientras que la tasa de aprendizaje controla la magnitud de la actualización, el tamaño del lote determina el número de muestras de entrenamiento procesadas antes de que se produzca una actualización. Existe una fuerte relación entre ambos; a menudo, al aumentar el tamaño del lote, también hay que aumentar la tasa de aprendizaje para mantener la eficiencia del entrenamiento, un concepto explorado en artículos sobre el entrenamiento de lotes grandes.
  • Tasa de aprendizaje frente a decaimiento: El decaimiento se refiere a una estrategia en la que la tasa de aprendizaje se reduce sistemáticamente con el tiempo. Un programador puede reducir la tasa en un factor de 10 cada 30 épocas. Esto ayuda al modelo a dar grandes saltos conceptuales al principio y luego refinar su precisión con pasos más pequeños hacia el final del entrenamiento. Esta es una característica estándar del Python Ultralytics Python .

Configuración de la tasa de aprendizaje en Ultralytics YOLO

Al utilizar marcos modernos, se puede ajustar fácilmente la tasa de aprendizaje inicial (lr0) y la fracción final de la tasa de aprendizaje (lrf). A continuación se muestra un ejemplo de cómo configurar esto utilizando el Plataforma Ultralytics Cliente compatible para una sesión de entrenamiento personalizada.

from ultralytics import YOLO

# Load the YOLO26 model (latest state-of-the-art architecture)
model = YOLO("yolo26n.pt")

# Train the model with a custom initial learning rate
# lr0=0.01 sets the initial rate
# lrf=0.01 sets the final learning rate to (lr0 * lrf)
results = model.train(data="coco8.yaml", epochs=10, lr0=0.01, lrf=0.01)

Para usuarios avanzados, técnicas como el LR Finder (popularizado por fast.ai) pueden esencialmente automatizar el descubrimiento del mejor valor inicial ejecutando un breve periodo de prueba en el que la tasa se incrementa exponencialmente hasta que la pérdida diverge. Dominar este hiperparámetro es a menudo la clave para desbloquear el rendimiento SOTA (State-of-the-Art) en sus proyectos de IA.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora