Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Optimizador Adam

Descubra cómo el optimizador Adam potencia el entrenamiento eficiente de redes neuronales con tasas de aprendizaje adaptables, impulso y aplicaciones reales en IA.

El Adam , abreviatura de Estimación Adaptativa del Momento, es un sofisticado algoritmo de optimización ampliamente utilizado para entrenar modelos de aprendizaje profundo. Revolucionó el campo al combinar las ventajas de otras dos extensiones populares del descenso estocástico del gradiente (SGD): el Algoritmo Adaptativo del Gradiente (AdaGrad) y la Propagación de la Media Cuadrática (RMSProp). Al calcular tasas de aprendizaje adaptativas individuales para diferentes parámetros a partir de estimaciones de los momentos primero y segundo de los gradientes, Adam que las redes neuronales converjan significativamente más rápido que los métodos tradicionales. Su robustez y sus mínimos requisitos de ajuste lo convierten en la opción predeterminada para muchos profesionales que inician un nuevo proyecto de aprendizaje automático (ML).

Cómo funciona Adam

En esencia, entrenar un modelo implica minimizar una función de pérdida, que mide la diferencia entre las predicciones del modelo y los datos reales. Los algoritmos estándar suelen utilizar un tamaño de paso constante (tasa de aprendizaje) para descender por el «paisaje de pérdidas» hacia el error mínimo. Sin embargo, este paisaje suele ser complejo, con barrancos y mesetas que pueden atrapar a los algoritmos más simples.

Adam esto manteniendo dos búferes históricos para cada parámetro:

  1. Momento (primer momento): similar a una bola pesada que rueda cuesta abajo, este sigue la media móvil de las pendientes pasadas para mantener la velocidad en la dirección relevante.
  2. Varianza (segundo momento): realiza un seguimiento de la media móvil de los gradientes al cuadrado, que escala la tasa de aprendizaje.

Esta combinación permite al optimizador dar pasos más grandes en áreas planas del paisaje y pasos más pequeños y cautelosos en áreas empinadas o ruidosas. La mecánica específica se detalla en el artículoAdam fundamental Adam de Kingma y Ba, que demostró su superioridad empírica en diversas tareas de aprendizaje profundo (DL).

Aplicaciones en el mundo real

La versatilidad del Adam ha llevado a su adopción en prácticamente todos los sectores de la inteligencia artificial (IA).

  • Procesamiento del lenguaje natural (NLP): Los grandes modelos de lenguaje, como Generative Pre-trained Transformers (GPT), dependen en gran medida de Adam o su variante AdamW) para el entrenamiento. El algoritmo maneja de manera eficiente los gradientes dispersos asociados con vastos vocabularios y conjuntos de datos masivos, lo que permite la creación de potentes chatbots y sistemas de traducción.
  • Visión artificial en el sector sanitario: en el análisis de imágenes médicas, los modelos deben detect anomalías sutiles, como tumores en resonancias magnéticas. Adam las redes neuronales convolucionales (CNN)a converger rápidamente en soluciones de alta precisión, lo cual es fundamental a la hora de desarrollar herramientas de diagnóstico para la IA en el sector sanitario.

Adam SGD

Aunque Adam converger más rápido, es importante distinguirlo del descenso estocástico del gradiente (SGD). SGD actualiza los pesos del modelo utilizando una tasa de aprendizaje fija y a menudo se prefiere para las etapas finales del entrenamiento de modelos de detección de objetos de última generación , ya que a veces puede lograr una generalización ligeramente mejor (precisión final) en los datos de prueba.

Sin embargo, Adam «adaptativo», lo que significa que gestiona el ajuste de la tasa de aprendizaje automáticamente. Esto lo hace mucho más fácil de usar para los experimentos iniciales y las arquitecturas complejas en las que SGD difícil ajustar SGD . Para los usuarios que gestionan experimentos en la Ultralytics , cambiar entre estos optimizadores para comparar el rendimiento suele ser un paso clave en el ajuste de hiperparámetros.

Aplicación con Ultralytics

Los marcos modernos como PyTorch y la biblioteca Ultralytics facilitan el uso de Adam . Una variante popular llamada AdamW (Adam decaimiento de peso) se recomienda a menudo ya que soluciona problemas con la regularización en el Adam original. Esto es particularmente efectivo para las últimas arquitecturas como YOLO26, que se beneficia de la estabilidad AdamW .

El siguiente ejemplo muestra cómo entrenar un modelo YOLO26 utilizando el AdamW :

from ultralytics import YOLO

# Load the cutting-edge YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model using the 'AdamW' optimizer
# The 'optimizer' argument allows easy switching between SGD, Adam, AdamW, etc.
results = model.train(data="coco8.yaml", epochs=5, optimizer="AdamW")

Para los desarrolladores interesados en los fundamentos teóricos más profundos, recursos como las Notas de optimización CS231n de Stanford proporcionan excelentes visualizaciones de cómo Adam con otros algoritmos como RMSProp y AdaGrad. Además, la documentaciónPyTorch ofrece detalles técnicos sobre los argumentos y las especificaciones de implementación disponibles para la personalización.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora