Глоссарий

Adam Оптимизатор

Узнайте, как оптимизатор Adam обеспечивает эффективное обучение нейронных сетей с адаптивной скоростью обучения, импульсом и реальными приложениями в области ИИ.

Adam (Adaptive Moment Estimation) - это сложный и широко используемый оптимизационный алгоритм, предназначенный для обновления параметров нейронной сети в процессе обучения. Объединяя лучшие свойства двух других популярных расширения стохастического градиентного спуска (SGD)- в частности, адаптивного градиентного алгоритма (AdaGrad) и корневого среднеквадратичного распространения (RMSProp) - Adam вычисляет адаптивные скорости обучения для каждого отдельного параметра. Эта Эта возможность позволяет ему эффективно работать с разреженными градиентами в шумных задачах, что делает его выбором по умолчанию для обучения сложных архитектур глубокого обучения (DL), включая новейшие моделиYOLO11 .

Как работает Adam

Основной механизм Adam заключается в вычислении первого и второго моментов градиентов для адаптации скорость обучения для каждого веса в нейронной сети. Вы можете считать "первый момент" как импульс, который заставляет оптимизацию двигаться в правильном направлении, подобно тяжелому мячу. катящийся вниз по склону. Второй момент" отслеживает нецентрированную дисперсию, эффективно масштабируя размер шага в зависимости от исторической величины градиентов.

Во время обратного распространения алгоритм вычисляет градиент функции потерь по отношению к весов. Затем Adam обновляет экспоненциальные скользящие средние градиента (импульс) и квадрата градиента (дисперсия). Эти скользящие средние используются для масштабирования текущего градиента, гарантируя, что модель делает большие шаги в направлениях с постоянным градиентом и меньшие шаги в направлениях с высокой дисперсией. Этот процесс подробно описан в оригинальной Исследовательская работаAdam , написанная Kingma и Ba.

Отличия Adam от других оптимизаторов

Чтобы понять, когда следует использовать Adam , необходимо сравнить его с другими распространенными алгоритмами, используемыми в фреймворки машинного обучения (ML).

Стохастический градиентный спуск (SGD): SGD обновляет параметры, используя фиксированную скорость обучения (или простой график затухания). Хотя SGD является вычислительно эффективен и часто хорошо обобщает, он может испытывать трудности с "седловыми точками" в ландшафте потерь и сходится медленнее, чем Adam. Многие В задачах компьютерного зрения SGD используется для окончательной тонкой настройки для достижения максимальной точности.
RMSProp: Этот оптимизатор в основном решает проблему снижения скорости обучения, наблюдаемую в AdaGrad. Adam улучшает RMSProp за счет добавлением члена импульса, который помогает гасить колебания и ускоряет сходимость к минимуму.
AdamW: вариант, известный как Adam с отсоединенным затуханием веса AdamW), часто используется для обучения современных трансформеров и больших моделей компьютерного зрения. Он отделяет регуляризацию весового распада от обновления градиента, что часто приводит к лучшему обобщению, чем стандартного Adam.

Применение в реальном мире

Благодаря своей надежности и минимальным требованиям к настройки гиперпараметров, Adam используется в различных областях с высокой степенью воздействия.

ИИ в здравоохранении: Когда обучение моделей для анализа медицинских изображений - например,для обнаружения аномалий на снимках МРТ - данные могут быть разреженными или несбалансированными. Адаптивная скорость обучения Adam помогает модели быстро сходиться быстро сходиться даже в тех случаях, когда конкретные признаки нечасто встречаются в обучающих данных, что способствует более быстрому внедрению диагностических инструментов.
Обработка естественного языка (NLP): Большие языковые модели (LLM), такие как GPT-4, в значительной степени полагаются на Adam (или AdamW) во время предварительного обучения. Этот алгоритм эффективно справляется с огромным количеством параметров - часто миллиардами - и разреженностью вкраплений слов, что позволяет этим моделям изучать сложные лингвистические паттерны из таких обширных текстовых массивов, как Википедия. Википедия.

Использование в Ultralytics YOLO

При использовании Ultralytics Python API вы можете легко выбрать оптимизатор Adam для обучения моделей обнаружения объектов, сегментации или оценки позы. Хотя SGD используется по умолчанию для многих конфигураций YOLO , Adam является отличной альтернативой для небольших наборов данных или когда приоритетом является быстрая сходимость приоритет отдается быстрой сходимости.

В следующем примере показано, как обучить YOLO11 с помощью оптимизатора Adam :

from ultralytics import YOLO

# Load a generic YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset using the 'Adam' optimizer
# The 'optimizer' argument creates the specific PyTorch optimizer instance internally
results = model.train(data="coco8.yaml", epochs=5, optimizer="Adam")

Такая гибкость позволяет исследователям и инженерам экспериментировать с конфигурациями оптимизатора, чтобы найти оптимальную настройку для своих для конкретных наборов данных.

Adam Оптимизатор

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Как работает Adam

Отличия Adam от других оптимизаторов

Применение в реальном мире

Использование в Ultralytics YOLO

Читать больше в этой категории

Будущие тенденции в области обнаружения объектов: 7 ключевых моментов, на которые следует обратить внимание

Улучшение повторной идентификации транспортных средств с помощью моделей Ultralytics YOLO

Улучшение прогнозирования столкновений с помощью моделей Ultralytics YOLO

Присоединяйтесь к сообществу Ultralytics