Узнайте, как оптимизатор Adam обеспечивает эффективное обучение нейронных сетей с помощью адаптивных скоростей обучения, импульса и реальных приложений в ИИ.
Adam (Adaptive Moment Estimation) — популярный и мощный алгоритм оптимизации, используемый в машинном обучении (ML) и глубоком обучении (DL). Он предназначен для эффективного поиска оптимальных значений для параметров модели (ее весов и смещений) путем итеративного обновления их на основе данных обучения. Adam высоко ценится за высокую скорость сходимости и эффективность в широком диапазоне задач, что делает его распространенным выбором по умолчанию для многих специалистов при обучении пользовательских моделей. Его разработка стала важным шагом в повышении практичности обучения больших и сложных моделей.
Ключевым нововведением Adam является его способность адаптировать скорость обучения для каждого отдельного параметра. Вместо использования единой фиксированной скорости обучения для всех весов в сети, Adam вычисляет индивидуальную скорость обучения, которая корректируется по мере продвижения обучения. Он достигает этого, объединяя преимущества двух других методов оптимизации: RMSProp и Momentum. Adam отслеживает два основных компонента: первый момент (среднее значение градиентов, аналогично моменту) и второй момент (несмещенная дисперсия градиентов). Эта комбинация позволяет ему выполнять более обоснованные обновления, делая большие шаги для параметров с согласованными градиентами и меньшие шаги для параметров с зашумленными или разреженными градиентами. Метод подробно описан в оригинальной исследовательской работе Adam Кингмы и Ба.
Полезно сравнить Adam с другими распространенными оптимизаторами, чтобы понять его сильные стороны.
Эффективность и надежность Adam делают его подходящим для широкого спектра применений.
В экосистеме Ultralytics Adam и его вариант AdamW являются доступными оптимизаторами для обучения моделей Ultralytics YOLO. Использование адаптивных скоростей обучения Adam может ускорить сходимость во время обучения моделей обнаружения объектов, сегментации экземпляров или оценки позы, таких как YOLO11 или YOLOv10. Хотя SGD часто является оптимизатором по умолчанию и рекомендуется для некоторых моделей YOLO из-за потенциально лучшей итоговой генерализации, Adam предоставляет надежную альтернативу, особенно полезную во время начальных экспериментов. Вы можете легко настроить оптимизатор и другие параметры обучения. Такие инструменты, как Ultralytics HUB, упрощают этот процесс, позволяя пользователям обучать модели с использованием различных оптимизаторов, включая Adam, локально или через облачное обучение. Фреймворки, такие как PyTorch и TensorFlow, предоставляют стандартные реализации Adam, которые используются в рамках фреймворка Ultralytics.