YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

SGD(Stochastic Gradient Descent)

Stochastic Gradient Descent가 머신러닝 모델을 최적화하여 대규모 데이터 세트 및 딥러닝 작업에 대한 효율적인 학습을 가능하게 하는 방법을 알아보세요.

확률적 경사 하강법(SGD)은 머신러닝(ML)에서 기본적인 널리 사용되는 최적화 알고리즘입니다. 이는 가중치 및 편향과 같은 내부 파라미터를 조정하여 손실 함수를 최소화함으로써 모델을 훈련하는 데 사용되는 반복적인 방법입니다. 각 업데이트에 대해 전체 데이터 세트를 처리하는 기존 경사 하강법과 달리 SGD는 무작위로 선택된 단일 훈련 샘플만 사용하여 파라미터를 업데이트합니다. 이 "확률적" 접근 방식은 훈련 프로세스를 훨씬 빠르고 확장 가능하게 만들어 빅 데이터로 작업할 때 특히 중요합니다. 노이즈가 있는 업데이트는 모델이 오류 환경에서 잘못된 로컬 최소값을 벗어나 잠재적으로 더 나은 전체 솔루션을 찾는 데 도움이 될 수도 있습니다.

Stochastic Gradient Descent 작동 방식

SGD의 핵심 아이디어는 전체 데이터 세트에 대해 계산되는 손실 함수의 실제 기울기를 단일 샘플에 대한 손실 기울기를 사용하여 근사하는 것입니다. 이 단일 샘플 기울기는 노이즈가 많은 추정치이지만 계산 비용이 저렴하고 평균적으로 올바른 방향을 가리킵니다. 이 프로세스는 각 훈련 샘플에 대해 간단한 두 단계 주기를 반복하는 것을 포함합니다.

  1. 기울기 계산(Calculate the Gradient): 단일 훈련 예제에 대해 모델 파라미터와 관련하여 손실 함수의 기울기를 계산합니다.
  2. 파라미터 업데이트: 학습률에 따라 조정된 기울기의 반대 방향으로 파라미터를 조정합니다. 이렇게 하면 모델이 해당 특정 샘플에 대한 오류가 더 낮은 상태로 이동합니다.

이 주기는 전체 데이터 세트에 대해 여러 번 반복되며, 이를 epoch(에폭)이라고 합니다. 이를 통해 모델 성능이 점진적으로 향상됩니다. SGD의 효율성 덕분에 SGD는 현대 딥러닝(DL)의 초석이 되었으며, PyTorchTensorFlow와 같은 모든 주요 프레임워크에서 지원됩니다.

SGD와 다른 Optimizer 비교

SGD는 여러 gradient 기반 최적화 방법 중 하나이며, 각 방법은 고유한 장단점을 가지고 있습니다.

  • 배치 경사 하강법(Batch Gradient Descent): 이 방법은 전체 훈련 데이터 세트를 사용하여 기울기를 계산합니다. 최소값에 대한 안정적이고 직접적인 경로를 제공하지만 대규모 데이터 세트의 경우 매우 느리고 메모리 집약적이므로 대부분의 최신 애플리케이션에는 실용적이지 않습니다.
  • 미니 배치 경사 하강법: 이는 배치 GD와 SGD 간의 절충안입니다. 데이터의 작은 임의 하위 집합("미니 배치")을 사용하여 파라미터를 업데이트합니다. 배치 GD의 안정성과 SGD의 효율성의 균형을 맞추며 실제로 가장 일반적으로 사용되는 접근 방식입니다.
  • Adam Optimizer: Adam은 각 파라미터에 대해 별도의 학습률을 유지하고 학습이 진행됨에 따라 조정하는 적응형 최적화 알고리즘입니다. 종종 SGD보다 빠르게 수렴하지만 SGD는 때때로 더 나은 최소값을 찾고 더 나은 일반화를 제공하여 과적합(overfitting)을 방지하는 데 도움이 될 수 있습니다.

실제 애플리케이션

SGD와 그 변형은 다양한 도메인에서 광범위한 AI 모델을 훈련하는 데 매우 중요합니다.

  • 실시간 객체 감지 훈련: 실시간 추론을 위해 설계된 Ultralytics YOLO와 같은 모델의 경우 훈련이 효율적이어야 합니다. SGD를 통해 개발자는 COCO와 같은 대규모 이미지 데이터 세트 또는 Ultralytics HUB와 같은 플랫폼을 통해 관리되는 사용자 지정 데이터 세트에서 이러한 모델을 훈련할 수 있습니다. 빠른 업데이트를 통해 모델 개발 및 하이퍼파라미터 튜닝 중에 빠르게 반복하는 데 중요한 Batch GD에 비해 더 빠른 수렴이 가능합니다. 이러한 효율성은 자율 주행 차량로봇 공학과 같은 분야의 애플리케이션을 지원합니다.
  • 대규모 언어 모델(LLM) 학습: 자연어 처리(NLP)를 위한 모델 학습에는 종종 대규모 텍스트 데이터 세트가 필요합니다. SGD와 그 변형은 이 데이터를 효율적으로 반복하는 데 필수적이며, GPT-4 또는 Hugging Face에서 찾을 수 있는 모델이 문법, 컨텍스트 및 의미 체계를 학습할 수 있도록 합니다. 확률적 특성은 큰 신경망 학습에서 흔히 발생하는 문제인 복잡한 손실 함수 지형(loss landscape)에서 불량한 로컬 최소값을 벗어나는 데 도움이 됩니다. 이 프로세스는 기계 번역감성 분석과 같은 작업의 기본입니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.