Saiba como o optimizador Adam potencia o treino eficiente de redes neuronais com taxas de aprendizagem adaptativas, dinâmica e aplicações do mundo real em IA.
O Adam (Adaptive Moment Estimation) é um algoritmo de otimização popular e poderoso utilizado na aprendizagem automática (ML) e na aprendizagem profunda (DL). Foi concebido para encontrar de forma eficiente os valores ideais para os parâmetros de um modelo (os seus pesos e enviesamentos), actualizando-os iterativamente com base nos dados de treino. O Adam é altamente considerado pela sua rápida velocidade de convergência e eficácia numa vasta gama de problemas, o que o torna uma escolha padrão comum para muitos profissionais quando treinam modelos personalizados. O seu desenvolvimento foi um passo significativo para tornar mais prático o treino de modelos grandes e complexos.
A principal inovação da Adam é a sua capacidade de adaptar a taxa de aprendizagem para cada parâmetro individual. Em vez de utilizar uma taxa de aprendizagem única e fixa para todos os pesos da rede, a Adam calcula uma taxa de aprendizagem individual que se ajusta à medida que o treino avança. Ele consegue isso combinando as vantagens de dois outros métodos de otimização: RMSProp e Momentum. O Adam controla dois componentes principais: o primeiro momento (a média dos gradientes, semelhante ao momentum) e o segundo momento (a variância não centrada dos gradientes). Esta combinação permite-lhe fazer actualizações mais informadas, dando passos maiores para parâmetros com gradientes consistentes e passos mais pequenos para aqueles com gradientes ruidosos ou esparsos. O método é descrito em pormenor no artigo de investigação original da Adam, da autoria de Kingma e Ba.
É útil comparar o Adam com outros optimizadores comuns para compreender os seus pontos fortes.
A eficiência e a robustez da Adam tornam-na adequada para uma vasta gama de aplicações.
No ecossistema Ultralytics, o Adam e a sua variante AdamW são optimizadores disponíveis para o treino dos modelos Ultralytics YOLO. A utilização das taxas de aprendizagem adaptativas do Adam pode acelerar a convergência durante o treino de modelos de deteção de objectos, segmentação de instâncias ou estimativa de pose, como o YOLO11 ou o YOLOv10. Embora o SGD seja frequentemente o optimizador predefinido e recomendado para alguns modelos YOLO devido a uma generalização final potencialmente melhor, o Adam fornece uma alternativa robusta, particularmente útil durante a experimentação inicial. É possível configurar facilmente o optimizador e outras definições de treino. Ferramentas como o Ultralytics HUB simplificam o processo, permitindo aos utilizadores treinar modelos utilizando vários optimizadores, incluindo o Adam, quer localmente quer através de treino na nuvem. Estruturas como PyTorch e TensorFlow fornecem implementações padrão do Adam, que são utilizadas na estrutura do Ultralytics.