YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

Adam 옵티마이저

Adam 옵티마이저가 적응형 학습률, 모멘텀 및 AI의 실제 응용을 통해 효율적인 신경망 학습을 어떻게 지원하는지 알아보세요.

Adam(Adaptive Moment Estimation)은 머신 러닝(ML)딥 러닝(DL)에서 널리 사용되는 강력한 최적화 알고리즘입니다. 훈련 데이터를 기반으로 모델 파라미터(가중치 및 편향)를 반복적으로 업데이트하여 최적의 값을 효율적으로 찾도록 설계되었습니다. Adam은 빠른 수렴 속도와 광범위한 문제에 대한 효과로 인해 높은 평가를 받고 있으며, 많은 전문가들이 맞춤형 모델을 훈련할 때 일반적인 기본 선택으로 사용합니다. Adam의 개발은 크고 복잡한 모델의 훈련을 더욱 실용적으로 만드는 데 중요한 단계였습니다.

Adam 작동 방식

Adam의 핵심 혁신은 각 개별 파라미터에 대한 학습률을 조정하는 능력입니다. 네트워크의 모든 가중에 대해 단일 고정 학습률을 사용하는 대신, Adam은 훈련이 진행됨에 따라 조정되는 개별 학습률을 계산합니다. 이는 RMSProp 및 Momentum이라는 두 가지 다른 최적화 방법의 장점을 결합하여 달성됩니다. Adam은 첫 번째 모멘트(기울기의 평균, 모멘텀과 유사)와 두 번째 모멘트(기울기의 비중심 분산)라는 두 가지 주요 구성 요소를 추적합니다. 이러한 조합을 통해 일관된 기울기를 가진 파라미터에 대해서는 더 큰 단계를, 노이즈가 많거나 희소한 기울기를 가진 파라미터에 대해서는 더 작은 단계를 수행하여 보다 정보에 입각한 업데이트를 수행할 수 있습니다. 이 방법은 Kingma와 Ba의 원본 Adam 연구 논문에 자세히 설명되어 있습니다.

Adam vs. 다른 Optimizer

Adam의 강점을 이해하려면 다른 일반적인 옵티마이저와 비교하는 것이 도움이 됩니다.

  • Adam vs. Stochastic Gradient Descent (SGD): SGD는 기본적인 최적화 알고리즘이지만 모든 파라미터 업데이트에 적용되는 일정한 학습률을 사용합니다. 이로 인해 수렴이 느려지거나 손실 함수의 차선의 "계곡"에 갇힐 수 있습니다. 적응형 학습률을 사용하는 Adam은 종종 손실 랜드스케이프를 더 효율적으로 탐색하고 훨씬 빠르게 수렴합니다. 그러나 일부 연구에서는 SGD로 학습된 모델이 특정 시나리오에서 약간 더 잘 일반화되고 과적합을 더 효과적으로 방지할 수 있다고 제안합니다. 선택은 종종 모델 학습 팁 가이드에서 설명한 대로 경험적 테스트가 필요합니다.
  • AdamW: 널리 사용되고 효과적인 변형은 AdamW(Decoupled Weight Decay를 사용한 Adam)입니다. 이는 가중치 감소(weight decay, 정규화 기법)가 적용되는 방식을 수정하여 기울기 업데이트 단계와 분리합니다. 이를 통해 모델 성능이 향상되고 일반화가 더 잘 이루어지는 경우가 많습니다. PyTorchTensorFlow와 같은 주요 프레임워크에서 구현을 사용할 수 있습니다.

실제 애플리케이션

Adam의 효율성과 견고성은 광범위한 애플리케이션에 적합합니다.

  1. 대규모 언어 모델(LLM) 학습: Adam과 그 변형은 자연어 처리(NLP)에서 대규모 모델을 학습하는 데 매우 중요합니다. GPT-4 또는 Hugging Face의 모델과 같은 경우 Adam의 효율성 덕분에 Wikipedia와 같은 소스의 방대한 텍스트 데이터 세트를 처리하고 복잡한 언어 패턴을 학습할 수 있습니다. 복잡한 손실 함수 지형(loss landscapes)을 탐색하는 능력은 성공에 필수적입니다.
  2. Image Classification and Object Detection(이미지 분류 및 객체 탐지): 컴퓨터 비전(CV)에서 Adam은 합성곱 신경망(CNN)ImageNet 또는 COCO와 같은 대규모 이미지 데이터 세트에서 훈련하는 데 널리 사용됩니다. 이는 이미지 분류객체 탐지 모델이 빠르게 수렴하도록 도와 개발 및 하이퍼파라미터 튜닝 주기를 가속화합니다.

Ultralytics YOLO에서의 사용

Ultralytics 생태계 내에서 Adam과 그 변형인 AdamW는 Ultralytics YOLO 모델 학습을 위한 최적화 프로그램으로 사용할 수 있습니다. Adam의 적응형 학습률을 활용하면 객체 감지, 인스턴스 분할 또는 포즈 추정 모델(예: YOLO11 또는 YOLOv10)의 학습 중 수렴을 가속화할 수 있습니다. SGD가 잠재적으로 더 나은 최종 일반화로 인해 일부 YOLO 모델에 대한 기본 및 권장 최적화 프로그램인 경우가 많지만 Adam은 특히 초기 실험 중에 유용한 강력한 대안을 제공합니다. 최적화 프로그램 및 기타 학습 설정을 쉽게 구성할 수 있습니다. Ultralytics HUB와 같은 도구는 로컬 또는 클라우드 학습을 통해 Adam을 포함한 다양한 최적화 프로그램을 사용하여 모델을 학습할 수 있도록 프로세스를 간소화합니다. PyTorchTensorFlow와 같은 프레임워크는 Ultralytics 프레임워크 내에서 활용되는 Adam의 표준 구현을 제공합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.