Aprenda como o otimizador Adam impulsiona o treinamento eficiente de redes neurais com taxas de aprendizado adaptáveis, momentum e aplicações de IA no mundo real.
Adam (Estimativa Adaptativa de Momentos) é um algoritmo de otimização popular e poderoso usado em aprendizado de máquina (ML) e aprendizado profundo (DL). Ele é projetado para encontrar eficientemente os valores ideais para os parâmetros de um modelo (seus pesos e vieses), atualizando-os iterativamente com base nos dados de treinamento. O Adam é altamente considerado por sua rápida velocidade de convergência e eficácia em uma ampla gama de problemas, tornando-o uma escolha padrão comum para muitos profissionais ao treinar modelos personalizados. Seu desenvolvimento foi um passo significativo para tornar o treinamento de modelos grandes e complexos mais prático.
A principal inovação do Adam é sua capacidade de adaptar a taxa de aprendizado para cada parâmetro individual. Em vez de usar uma única taxa de aprendizado fixa para todos os pesos na rede, o Adam calcula uma taxa de aprendizado individual que se ajusta à medida que o treinamento progride. Ele consegue isso combinando as vantagens de dois outros métodos de otimização: RMSProp e Momentum. O Adam acompanha dois componentes principais: o primeiro momento (a média dos gradientes, semelhante ao momentum) e o segundo momento (a variância não centrada dos gradientes). Essa combinação permite que ele faça atualizações mais informadas, dando passos maiores para parâmetros com gradientes consistentes e passos menores para aqueles com gradientes ruidosos ou esparsos. O método é detalhado no artigo de pesquisa original do Adam, de Kingma e Ba.
É útil comparar o Adam com outros otimizadores comuns para entender seus pontos fortes.
A eficiência e robustez do Adam o tornam adequado para uma ampla gama de aplicações.
Dentro do ecossistema Ultralytics, Adam e a sua variante AdamW são otimizadores disponíveis para o treino de modelos YOLO da Ultralytics. O uso das taxas de aprendizagem adaptativas de Adam pode acelerar a convergência durante o treino de modelos de deteção de objetos, segmentação de instâncias ou estimativa de pose, como YOLO11 ou YOLOv10. Embora o SGD seja frequentemente o otimizador padrão e recomendado para alguns modelos YOLO devido a uma generalização final potencialmente melhor, o Adam oferece uma alternativa robusta, particularmente útil durante a experimentação inicial. Pode configurar facilmente o otimizador e outras definições de treino. Ferramentas como o Ultralytics HUB simplificam o processo, permitindo aos utilizadores treinar modelos usando vários otimizadores, incluindo Adam, localmente ou através do treino na nuvem. Frameworks como PyTorch e TensorFlow fornecem implementações padrão de Adam, que são utilizadas dentro do framework Ultralytics.