Glossário

Otimizador Adam

Aprenda como o otimizador Adam impulsiona o treinamento eficiente de redes neurais com taxas de aprendizado adaptáveis, momentum e aplicações de IA no mundo real.

Adam (Estimativa Adaptativa de Momentos) é um algoritmo de otimização popular e poderoso usado em aprendizado de máquina (ML) e aprendizado profundo (DL). Ele é projetado para encontrar eficientemente os valores ideais para os parâmetros de um modelo (seus pesos e vieses), atualizando-os iterativamente com base nos dados de treinamento. O Adam é altamente considerado por sua rápida velocidade de convergência e eficácia em uma ampla gama de problemas, tornando-o uma escolha padrão comum para muitos profissionais ao treinar modelos personalizados. Seu desenvolvimento foi um passo significativo para tornar o treinamento de modelos grandes e complexos mais prático.

Como Adam Trabalha

A principal inovação do Adam é sua capacidade de adaptar a taxa de aprendizado para cada parâmetro individual. Em vez de usar uma única taxa de aprendizado fixa para todos os pesos na rede, o Adam calcula uma taxa de aprendizado individual que se ajusta à medida que o treinamento progride. Ele consegue isso combinando as vantagens de dois outros métodos de otimização: RMSProp e Momentum. O Adam acompanha dois componentes principais: o primeiro momento (a média dos gradientes, semelhante ao momentum) e o segundo momento (a variância não centrada dos gradientes). Essa combinação permite que ele faça atualizações mais informadas, dando passos maiores para parâmetros com gradientes consistentes e passos menores para aqueles com gradientes ruidosos ou esparsos. O método é detalhado no artigo de pesquisa original do Adam, de Kingma e Ba.

Adam Vs. Outros Otimizadores

É útil comparar o Adam com outros otimizadores comuns para entender seus pontos fortes.

Adam vs. Descida do Gradiente Estocástico (SGD): Embora o SGD seja um algoritmo de otimização fundamental, ele usa uma taxa de aprendizado constante que se aplica a todas as atualizações de parâmetros. Isso pode fazer com que a convergência seja lenta ou que ele fique preso em "vales" subótimos da função de perda. O Adam, com suas taxas de aprendizado adaptáveis, geralmente navega pelo espaço de perda de forma mais eficiente e converge muito mais rápido. No entanto, algumas pesquisas sugerem que os modelos treinados com SGD podem generalizar um pouco melhor e evitar o overfitting de forma mais eficaz em certos cenários. A escolha geralmente requer testes empíricos, conforme explicado em guias sobre dicas de treinamento de modelos.
AdamW: Uma variante popular e eficaz é o AdamW (Adam com Decaimento de Peso Desacoplado). Ele modifica a forma como o decaimento de peso—uma técnica de regularização—é aplicado, separando-o da etapa de atualização do gradiente. Isso geralmente leva a um melhor desempenho do modelo e a uma melhor generalização. As implementações estão disponíveis em estruturas importantes como PyTorch e TensorFlow.

Aplicações no Mundo Real

A eficiência e robustez do Adam o tornam adequado para uma ampla gama de aplicações.

Treino de Grandes Modelos de Linguagem (LLMs): Adam e suas variantes são cruciais para treinar modelos massivos em Processamento de Linguagem Natural (NLP). Para modelos como o GPT-4 ou aqueles da Hugging Face, a eficiência de Adam torna possível processar enormes conjuntos de dados de texto de fontes como a Wikipedia e aprender padrões de linguagem complexos. A sua capacidade de navegar por paisagens de perda complexas é essencial para o sucesso.
Classificação de Imagens e Detecção de Objetos: Em visão computacional (VC), o Adam é amplamente utilizado para treinar redes neurais convolucionais (CNNs) profundas em grandes conjuntos de dados de imagens como ImageNet ou COCO. Ele ajuda os modelos de classificação de imagens e detecção de objetos a convergirem rapidamente, o que acelera o desenvolvimento e os ciclos de ajuste de hiperparâmetros.

Uso no Ultralytics YOLO

Dentro do ecossistema Ultralytics, Adam e a sua variante AdamW são otimizadores disponíveis para o treino de modelos YOLO da Ultralytics. O uso das taxas de aprendizagem adaptativas de Adam pode acelerar a convergência durante o treino de modelos de deteção de objetos, segmentação de instâncias ou estimativa de pose, como YOLO11 ou YOLOv10. Embora o SGD seja frequentemente o otimizador padrão e recomendado para alguns modelos YOLO devido a uma generalização final potencialmente melhor, o Adam oferece uma alternativa robusta, particularmente útil durante a experimentação inicial. Pode configurar facilmente o otimizador e outras definições de treino. Ferramentas como o Ultralytics HUB simplificam o processo, permitindo aos utilizadores treinar modelos usando vários otimizadores, incluindo Adam, localmente ou através do treino na nuvem. Frameworks como PyTorch e TensorFlow fornecem implementações padrão de Adam, que são utilizadas dentro do framework Ultralytics.

Otimizador Adam

Treine modelos Ultralytics YOLO para otimizar fluxos de trabalho em todos os setores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Como Adam Trabalha

Adam Vs. Outros Otimizadores

Aplicações no Mundo Real

Uso no Ultralytics YOLO

Leia mais nesta categoria

Utilizar a aprendizagem auto-supervisionada para eliminar o ruído das imagens

A IA da visão potencia os sistemas de monitorização da atenção do condutor

Dos bits aos qubits: Como a otimização quântica está a remodelar a IA

Junte-se à comunidade Ultralytics