Découvrez comment l'optimiseur Adam permet un entraînement efficace des réseaux neuronaux grâce à des taux d'apprentissage adaptatifs, un momentum et des applications concrètes dans l'IA.
Adam (Adaptive Moment Estimation) est un algorithme d'optimisation populaire et puissant utilisé dans l'apprentissage automatique (AA) et l'apprentissage profond (AP). Il est conçu pour trouver efficacement les valeurs optimales pour les paramètres d'un modèle (ses poids et biais) en les mettant à jour de manière itérative en fonction des données d'entraînement. Adam est très apprécié pour sa vitesse de convergence rapide et son efficacité dans un large éventail de problèmes, ce qui en fait un choix par défaut courant pour de nombreux praticiens lors de l'entraînement de modèles personnalisés. Son développement a constitué une étape importante pour rendre l'entraînement de modèles vastes et complexes plus pratique.
L'innovation clé d'Adam est sa capacité à adapter le taux d'apprentissage pour chaque paramètre individuel. Au lieu d'utiliser un taux d'apprentissage unique et fixe pour tous les poids du réseau, Adam calcule un taux d'apprentissage individuel qui s'ajuste au fur et à mesure de la progression de l'entraînement. Il y parvient en combinant les avantages de deux autres méthodes d'optimisation : RMSProp et Momentum. Adam suit deux composantes principales : le premier moment (la moyenne des gradients, similaire au momentum) et le second moment (la variance non centrée des gradients). Cette combinaison lui permet d'effectuer des mises à jour plus éclairées, en effectuant des pas plus importants pour les paramètres avec des gradients cohérents et des pas plus petits pour ceux avec des gradients bruyants ou épars. La méthode est détaillée dans l'article de recherche original d'Adam par Kingma et Ba.
Il est utile de comparer Adam avec d'autres optimiseurs courants pour comprendre ses forces.
L'efficacité et la robustesse d'Adam le rendent adapté à un large éventail d'applications.
Au sein de l'écosystème Ultralytics, Adam et sa variante AdamW sont des optimiseurs disponibles pour l'entraînement des modèles Ultralytics YOLO. L'utilisation des taux d'apprentissage adaptatifs d'Adam peut accélérer la convergence pendant l'entraînement de la détection d'objets, de la segmentation d'instances ou des modèles d'estimation de pose comme YOLO11 ou YOLOv10. Bien que SGD soit souvent l'optimiseur par défaut et recommandé pour certains modèles YOLO en raison d'une meilleure généralisation finale potentielle, Adam offre une alternative robuste, particulièrement utile lors de l'expérimentation initiale. Vous pouvez facilement configurer l'optimiseur et d'autres paramètres d'entraînement. Des outils comme Ultralytics HUB simplifient le processus, permettant aux utilisateurs d'entraîner des modèles en utilisant divers optimiseurs, y compris Adam, localement ou via l'entraînement dans le cloud. Les frameworks comme PyTorch et TensorFlow fournissent des implémentations standard d'Adam, qui sont utilisées dans le framework Ultralytics.