Learning Rate
Aprende cómo la tasa de aprendizaje afecta el entrenamiento del modelo. Descubre cómo optimizar el tamaño del paso para Ultralytics YOLO26 a fin de lograr un rendimiento SOTA en detección de objetos y más.
La tasa de aprendizaje es una configuración crítica de ajuste de hiperparámetros que determina el tamaño del paso que da un modelo durante el proceso de optimización. En el contexto del entrenamiento de una red neuronal, controla cuánto se actualizan los pesos internos del modelo en respuesta al error estimado cada vez que el modelo procesa un lote de datos. Imagínatelo como una persona caminando montaña abajo hacia un valle (el punto de menor error); la tasa de aprendizaje dicta la longitud de su zancada. Si la zancada es demasiado grande, podría pasar por encima del valle y perderse el fondo. Si la zancada es demasiado pequeña, llegar al destino podría llevar un tiempo excesivamente largo.
Link to this sectionEl dilema de "Ricitos de Oro" en la optimización#
Encontrar la tasa de aprendizaje óptima se describe a menudo como un acto de equilibrio dentro de los flujos de trabajo de machine learning. El objetivo es minimizar la función de pérdida, que mide la diferencia entre las predicciones del modelo y la realidad objetiva. Este proceso depende en gran medida de un algoritmo de optimización como el descenso de gradiente estocástico (SGD) o el optimizador Adam para navegar por el panorama de pérdidas.
- Tasa de aprendizaje demasiado alta: Si el valor es demasiado alto, las actualizaciones de peso del modelo serán drásticas. Esto puede llevar al fenómeno de "sobrepaso" (overshooting), donde el modelo no logra converger en una solución y, en cambio, oscila violentamente o diverge. Esta inestabilidad a veces puede desencadenar un problema de gradiente explosivo, inutilizando el proceso de entrenamiento.
- Tasa de aprendizaje demasiado baja: Por el contrario, un tamaño de paso extremadamente pequeño garantiza que el modelo se mueva con cuidado hacia el mínimo, pero puede resultar en subajuste porque el proceso de entrenamiento se vuelve agónicamente lento. El modelo podría quedarse atascado en un mínimo local o necesitar miles de épocas adicionales para aprender patrones simples, desperdiciando recursos computacionales. Los investigadores a menudo consultan la documentación de optimización de PyTorch para comprender cómo interactúan los diferentes algoritmos con estos valores.
Link to this sectionAplicaciones en el mundo real#
The impact of learning rate adjustments is evident across various high-stakes industries where computer vision tasks are deployed.
-
Autonomous Driving Systems: In the development of autonomous vehicles, engineers utilize vast datasets to train models for object detection to identify pedestrians and traffic signs. When applying transfer learning to a pre-trained model like YOLO26, developers typically use a much smaller learning rate than they would during initial training. This "fine-tuning" ensures that the model learns the nuances of specific driving environments (e.g., snowy roads vs. desert highways) without erasing the general feature extraction capabilities it already possesses.
-
Diagnóstico por imagen médica: En el análisis de imágenes médicas, como la detección de tumores en resonancias magnéticas, la precisión es fundamental. Una tasa de aprendizaje alta aquí crea el riesgo de que el modelo pase por alto diferencias sutiles de textura que distinguen el tejido maligno del benigno. Los profesionales a menudo emplean una técnica llamada "calentamiento de la tasa de aprendizaje" (learning rate warmup), aumentando gradualmente la tasa de cero a un valor objetivo para estabilizar las primeras etapas del entrenamiento, asegurando que los pesos de la red neuronal se establezcan en una configuración estable antes de que comience un aprendizaje agresivo. Puedes leer más sobre estas estrategias en el Curso intensivo de Machine Learning de Google.
Link to this sectionDiferenciación de términos relacionados#
Es importante distinguir la tasa de aprendizaje de otros parámetros de entrenamiento, ya que a menudo se configuran en los mismos archivos de configuración pero cumplen propósitos diferentes:
- Tasa de aprendizaje frente a tamaño de lote: Mientras que la tasa de aprendizaje controla la magnitud de la actualización, el tamaño de lote determina el número de muestras de entrenamiento procesadas antes de que ocurra una actualización. Existe una relación fuerte entre ambos; a menudo, al aumentar el tamaño del lote, uno también debe escalar la tasa de aprendizaje para mantener la eficiencia del entrenamiento, un concepto explorado en artículos sobre entrenamiento con lotes grandes.
- Tasa de aprendizaje frente a decaimiento: El decaimiento (decay) se refiere a una estrategia donde la tasa de aprendizaje se reduce sistemáticamente con el tiempo. Un programador podría reducir la tasa por un factor de 10 cada 30 épocas. Esto ayuda a que el modelo dé grandes saltos conceptuales al principio y luego refine su precisión con pasos más pequeños hacia el final del entrenamiento. Esta es una característica estándar en el paquete Python de Ultralytics.
Link to this sectionConfigurar la tasa de aprendizaje en Ultralytics YOLO#
Al utilizar frameworks modernos, puedes ajustar fácilmente la tasa de aprendizaje inicial (lr0) y la fracción de tasa de aprendizaje final (lrf). A continuación se muestra un ejemplo de cómo configurar esto utilizando el cliente compatible con Ultralytics Platform para una ejecución de entrenamiento personalizada.
from ultralytics import YOLO
# Load the YOLO26 model (latest state-of-the-art architecture)
model = YOLO("yolo26n.pt")
# Train the model with a custom initial learning rate
# lr0=0.01 sets the initial rate
# lrf=0.01 sets the final learning rate to (lr0 * lrf)
results = model.train(data="coco8.yaml", epochs=10, lr0=0.01, lrf=0.01)Para usuarios avanzados, técnicas como el LR Finder (popularizado por fast.ai) pueden automatizar esencialmente el descubrimiento del mejor valor inicial ejecutando una época de prueba corta donde la tasa se aumenta exponencialmente hasta que la pérdida diverge. Dominar este hiperparámetro es a menudo la clave para desbloquear el rendimiento SOTA (State-of-the-Art) en tus proyectos de IA.






