용어집

아담 옵티마이저

아담 옵티마이저가 적응형 학습 속도, 모멘텀, AI의 실제 애플리케이션을 통해 효율적인 신경망 학습을 지원하는 방법을 알아보세요.

Adam(적응형 순간 추정)은 머신러닝(ML)딥러닝(DL)에서 널리 사용되는 강력한 최적화 알고리즘입니다. 학습 데이터를 기반으로 반복적으로 업데이트하여 모델의 매개변수(가중치 및 편향)에 대한 최적의 값을 효율적으로 찾도록 설계되었습니다. Adam은 다양한 문제에서 빠른 수렴 속도와 효과로 높은 평가를 받고 있으며, 많은 실무자가 맞춤형 모델을 훈련할 때 기본으로 선택하는 경우가 많습니다. 아담의 개발은 대규모의 복잡한 모델을 보다 실용적으로 훈련하는 데 있어 중요한 단계였습니다.

아담의 작동 방식

Adam의 핵심 혁신은 각 개별 매개변수에 대한 학습 속도를 조정하는 기능입니다. 네트워크의 모든 가중치에 대해 고정된 단일 학습률을 사용하는 대신, Adam은 학습이 진행됨에 따라 조정되는 개별 학습률을 계산합니다. 이는 다른 두 가지 최적화 방법의 장점을 결합하여 달성합니다: RMSProp과 모멘텀입니다. Adam은 첫 번째 모멘트(모멘텀과 유사한 기울기의 평균)와 두 번째 모멘트(기울기의 중심이 없는 분산)라는 두 가지 주요 구성 요소를 추적합니다. 이 조합을 통해 일관된 기울기를 가진 매개변수에는 더 큰 단계를, 노이즈가 있거나 희박한 기울기를 가진 매개변수에는 더 작은 단계를 수행하여 더 많은 정보에 기반한 업데이트를 수행할 수 있습니다. 이 방법은 Kingma와 Ba의 원본 Adam 연구 논문에 자세히 설명되어 있습니다.

아담 대 다른 옵티마이저

Adam의 강점을 이해하려면 다른 일반적인 최적화 도구와 비교하는 것이 도움이 됩니다.

  • 아담 대 확률적 경사 하강(SGD): SGD는 기본적인 최적화 알고리즘이지만, 모든 파라미터 업데이트에 적용되는 일정한 학습 속도를 사용합니다. 이로 인해 수렴 속도가 느려지거나 손실 함수의 차선책 '밸리'에 갇힐 수 있습니다. 적응형 학습 속도를 갖춘 Adam은 손실 환경을 더 효율적으로 탐색하고 훨씬 빠르게 수렴하는 경우가 많습니다. 그러나 일부 연구에 따르면 SGD로 훈련된 모델은 특정 시나리오에서 일반화가 약간 더 잘되고 과적합을 더 효과적으로 피할 수 있다고 합니다. 모델 훈련 팁 가이드에 설명된 대로 경험적 테스트가 필요한 경우가 많습니다.
  • AdamW: 인기 있고 효과적인 변형은 AdamW(가중치 감쇠가 분리된 아담)입니다. 이는 정규화 기법인 가중치 감쇠가 적용되는 방식을 수정하여 그라데이션 업데이트 단계와 분리합니다. 이는 종종 모델 성능 향상과 일반화 개선으로 이어집니다. PyTorchTensorFlow와 같은 주요 프레임워크에서 구현할 수 있습니다.

실제 애플리케이션

Adam의 효율성과 견고함은 다양한 애플리케이션에 적합합니다.

  1. 대규모 언어 모델(LLM) 훈련하기: Adam과 그 변형은 자연어 처리(NLP)에서 대규모 모델을 훈련하는 데 매우 중요합니다. GPT-4나 Hugging Face와 같은 모델의 경우, Adam의 효율성을 통해 Wikipedia와 같은 소스에서 방대한 텍스트 데이터 세트를 처리하고 복잡한 언어 패턴을 학습할 수 있습니다. 복잡한 손실 환경을 탐색하는 능력은 성공에 필수적입니다.
  2. 이미지 분류 및 물체 감지: 컴퓨터 비전(CV)에서 Adam은 ImageNet이나 COCO와 같은 대규모 이미지 데이터 세트에서 심층 컨볼루션 신경망(CNN)을 훈련하는 데 널리 사용됩니다. 이미지 분류객체 감지를 위한 모델이 빠르게 수렴하도록 지원하여 개발 및 하이퍼파라미터 튜닝 주기를 가속화합니다.

울트라애널리틱스 YOLO에서의 사용

Ultralytics 에코시스템 내에서, Adam과 그 변형인 AdamW는 Ultralytics YOLO 모델 훈련에 사용할 수 있는 최적화 프로그램입니다. Adam의 적응형 학습 속도를 활용하면 객체 감지, 인스턴스 세분화 또는 YOLO11 또는 YOLOv10과 같은 포즈 추정 모델을 훈련하는 동안 수렴을 가속화할 수 있습니다. 최종 일반화 가능성이 더 높기 때문에 일부 YOLO 모델에는 SGD가 기본 및 권장 최적화 도구인 경우가 많지만 Adam은 초기 실험 중에 특히 유용한 강력한 대안을 제공합니다. 최적화 도구 및 기타 훈련 설정을 쉽게 구성할 수 있습니다. Ultralytics HUB와 같은 도구는 프로세스를 간소화하여 사용자가 로컬 또는 클라우드 트레이닝을 통해 Adam을 포함한 다양한 옵티마이저를 사용하여 모델을 트레이닝할 수 있게 해줍니다. PyTorchTensorFlow와 같은 프레임워크는 Adam의 표준 구현을 제공하며, 이는 Ultralytics 프레임워크 내에서 활용됩니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨