¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Optimizador Adam

Aprenda cómo el optimizador Adam impulsa el entrenamiento eficiente de redes neuronales con tasas de aprendizaje adaptativas, momentum y aplicaciones en el mundo real en la IA.

Adam (Estimación Adaptativa de Momentos) es un algoritmo de optimización popular y potente utilizado en aprendizaje automático (ML) y aprendizaje profundo (DL). Está diseñado para encontrar eficientemente los valores óptimos para los parámetros de un modelo (sus pesos y sesgos) actualizándolos iterativamente basándose en los datos de entrenamiento. Adam es muy apreciado por su rápida velocidad de convergencia y su eficacia en una amplia gama de problemas, lo que lo convierte en una opción predeterminada común para muchos profesionales al entrenar modelos personalizados. Su desarrollo fue un paso significativo para hacer que el entrenamiento de modelos grandes y complejos sea más práctico.

Cómo funciona Adam

La innovación clave de Adam es su capacidad para adaptar la tasa de aprendizaje para cada parámetro individual. En lugar de utilizar una única tasa de aprendizaje fija para todos los pesos de la red, Adam calcula una tasa de aprendizaje individual que se ajusta a medida que avanza el entrenamiento. Esto se consigue combinando las ventajas de otros dos métodos de optimización: RMSProp y Momentum. Adam realiza un seguimiento de dos componentes principales: el primer momento (la media de los gradientes, similar al momentum) y el segundo momento (la varianza no centrada de los gradientes). Esta combinación le permite realizar actualizaciones más informadas, dando pasos más grandes para los parámetros con gradientes consistentes y pasos más pequeños para aquellos con gradientes ruidosos o dispersos. El método se detalla en el artículo de investigación original de Adam por Kingma y Ba.

Adam Vs. Otros Optimizadores

Es útil comparar Adam con otros optimizadores comunes para comprender sus puntos fuertes.

  • Adam vs. Descenso de gradiente estocástico (SGD): Si bien SGD es un algoritmo de optimización fundamental, utiliza una tasa de aprendizaje constante que se aplica a todas las actualizaciones de parámetros. Esto puede hacer que la convergencia sea lenta o que se quede atascado en "valles" subóptimos de la función de pérdida. Adam, con sus tasas de aprendizaje adaptativas, a menudo navega por el panorama de pérdidas de manera más eficiente y converge mucho más rápido. Sin embargo, algunas investigaciones sugieren que los modelos entrenados con SGD pueden generalizar ligeramente mejor y evitar el sobreajuste de manera más efectiva en ciertos escenarios. La elección a menudo requiere pruebas empíricas, como se explica en las guías sobre consejos para el entrenamiento de modelos.
  • AdamW: Una variante popular y eficaz es AdamW (Adam con Decaimiento de Peso Desacoplado). Modifica la forma en que se aplica el decaimiento de peso, una técnica de regularización, separándola del paso de actualización del gradiente. Esto a menudo conduce a un mejor rendimiento del modelo y una mejor generalización. Las implementaciones están disponibles en los principales frameworks como PyTorch y TensorFlow.

Aplicaciones en el mundo real

La eficiencia y robustez de Adam lo hacen adecuado para una amplia gama de aplicaciones.

  1. Entrenamiento de modelos de lenguaje grandes (LLM): Adam y sus variantes son cruciales para entrenar modelos masivos en el Procesamiento del Lenguaje Natural (PNL). Para modelos como GPT-4 o aquellos de Hugging Face, la eficiencia de Adam hace factible procesar enormes conjuntos de datos de texto de fuentes como Wikipedia y aprender patrones de lenguaje complejos. Su capacidad para navegar por paisajes de pérdida complejos es esencial para el éxito.
  2. Clasificación de Imágenes y Detección de Objetos: En visión artificial (CV), Adam se utiliza ampliamente para entrenar redes neuronales convolucionales (CNN) profundas en grandes conjuntos de datos de imágenes como ImageNet o COCO. Ayuda a que los modelos de clasificación de imágenes y detección de objetos converjan rápidamente, lo que acelera el desarrollo y los ciclos de ajuste de hiperparámetros.

Uso en Ultralytics YOLO

Dentro del ecosistema de Ultralytics, Adam y su variante AdamW son optimizadores disponibles para el entrenamiento de modelos YOLO de Ultralytics. El uso de las tasas de aprendizaje adaptativas de Adam puede acelerar la convergencia durante el entrenamiento de modelos de detección de objetos, segmentación de instancias o estimación de pose como YOLO11 o YOLOv10. Si bien SGD es a menudo el optimizador predeterminado y recomendado para algunos modelos YOLO debido a una mejor generalización final potencial, Adam proporciona una alternativa robusta, particularmente útil durante la experimentación inicial. Puede configurar fácilmente el optimizador y otras configuraciones de entrenamiento. Herramientas como Ultralytics HUB agilizan el proceso, permitiendo a los usuarios entrenar modelos utilizando varios optimizadores, incluido Adam, ya sea localmente o a través del entrenamiento en la nube. Frameworks como PyTorch y TensorFlow proporcionan implementaciones estándar de Adam, que se utilizan dentro del framework de Ultralytics.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles