Aprenda cómo el optimizador Adam impulsa el entrenamiento eficiente de redes neuronales con tasas de aprendizaje adaptativas, momentum y aplicaciones en el mundo real en la IA.
Adam (Estimación Adaptativa de Momentos) es un algoritmo de optimización popular y potente utilizado en aprendizaje automático (ML) y aprendizaje profundo (DL). Está diseñado para encontrar eficientemente los valores óptimos para los parámetros de un modelo (sus pesos y sesgos) actualizándolos iterativamente basándose en los datos de entrenamiento. Adam es muy apreciado por su rápida velocidad de convergencia y su eficacia en una amplia gama de problemas, lo que lo convierte en una opción predeterminada común para muchos profesionales al entrenar modelos personalizados. Su desarrollo fue un paso significativo para hacer que el entrenamiento de modelos grandes y complejos sea más práctico.
La innovación clave de Adam es su capacidad para adaptar la tasa de aprendizaje para cada parámetro individual. En lugar de utilizar una única tasa de aprendizaje fija para todos los pesos de la red, Adam calcula una tasa de aprendizaje individual que se ajusta a medida que avanza el entrenamiento. Esto se consigue combinando las ventajas de otros dos métodos de optimización: RMSProp y Momentum. Adam realiza un seguimiento de dos componentes principales: el primer momento (la media de los gradientes, similar al momentum) y el segundo momento (la varianza no centrada de los gradientes). Esta combinación le permite realizar actualizaciones más informadas, dando pasos más grandes para los parámetros con gradientes consistentes y pasos más pequeños para aquellos con gradientes ruidosos o dispersos. El método se detalla en el artículo de investigación original de Adam por Kingma y Ba.
Es útil comparar Adam con otros optimizadores comunes para comprender sus puntos fuertes.
La eficiencia y robustez de Adam lo hacen adecuado para una amplia gama de aplicaciones.
Dentro del ecosistema de Ultralytics, Adam y su variante AdamW son optimizadores disponibles para el entrenamiento de modelos YOLO de Ultralytics. El uso de las tasas de aprendizaje adaptativas de Adam puede acelerar la convergencia durante el entrenamiento de modelos de detección de objetos, segmentación de instancias o estimación de pose como YOLO11 o YOLOv10. Si bien SGD es a menudo el optimizador predeterminado y recomendado para algunos modelos YOLO debido a una mejor generalización final potencial, Adam proporciona una alternativa robusta, particularmente útil durante la experimentación inicial. Puede configurar fácilmente el optimizador y otras configuraciones de entrenamiento. Herramientas como Ultralytics HUB agilizan el proceso, permitiendo a los usuarios entrenar modelos utilizando varios optimizadores, incluido Adam, ya sea localmente o a través del entrenamiento en la nube. Frameworks como PyTorch y TensorFlow proporcionan implementaciones estándar de Adam, que se utilizan dentro del framework de Ultralytics.