Узнайте, как оптимизатор Adam обеспечивает эффективное обучение нейронных сетей с адаптивной скоростью обучения, импульсом и реальными приложениями в области ИИ.
Adam (Adaptive Moment Estimation) - популярный и мощный алгоритм оптимизации, используемый в машинном обучении (ML) и глубоком обучении (DL). Он предназначен для эффективного поиска оптимальных значений параметров модели (весов и смещений) путем их итеративного обновления на основе обучающих данных. Adam высоко ценится за высокую скорость сходимости и эффективность при решении широкого круга задач, что делает его распространенным выбором по умолчанию для многих практиков при обучении пользовательских моделей. Его разработка стала значительным шагом к тому, чтобы сделать обучение больших и сложных моделей более практичным.
Ключевым новшеством Adam является возможность адаптации скорости обучения для каждого отдельного параметра. Вместо того чтобы использовать единую, фиксированную скорость обучения для всех весов в сети, Adam рассчитывает индивидуальную скорость обучения, которая регулируется по мере обучения. Это достигается за счет сочетания преимуществ двух других методов оптимизации: RMSProp и Momentum. Adam отслеживает два основных компонента: первый момент (среднее значение градиентов, аналогично momentum) и второй момент (нецентрированная дисперсия градиентов). Эта комбинация позволяет ему делать более обоснованные обновления, делая большие шаги для параметров с устойчивыми градиентами и меньшие шаги для параметров с шумными или редкими градиентами. Метод подробно описан в оригинальной статье Кингмы и Ба, посвященной исследованию Адама.
Полезно сравнить Adam с другими распространенными оптимизаторами, чтобы понять его сильные стороны.
Эффективность и прочность Adam позволяют использовать его в самых разных областях.
В экосистеме Ultralytics Adam и его вариант AdamW являются доступными оптимизаторами для обучения моделей Ultralytics YOLO. Использование адаптивной скорости обучения Adam позволяет ускорить сходимость при обучении моделей обнаружения объектов, сегментации экземпляров или оценки позы, таких как YOLO11 или YOLOv10. Хотя SGD часто используется по умолчанию и рекомендуется в качестве оптимизатора для некоторых моделей YOLO из-за потенциально лучшего конечного обобщения, Adam предоставляет надежную альтернативу, особенно полезную на начальном этапе экспериментов. Вы можете легко настроить оптимизатор и другие параметры обучения. Такие инструменты, как Ultralytics HUB, упрощают этот процесс, позволяя пользователям обучать модели с помощью различных оптимизаторов, включая Adam, как локально, так и с помощью облачного обучения. Такие фреймворки, как PyTorch и TensorFlow, предоставляют стандартные реализации Adam, которые используются в рамках Ultralytics.