YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

경사 하강법(Gradient Descent)

경사 하강법이 Ultralytics YOLO와 같은 AI 모델을 최적화하여 의료에서 자율 주행 자동차에 이르기까지 작업에서 정확한 예측을 어떻게 가능하게 하는지 알아보세요.

경사 하강법은 대부분의 머신 러닝(ML)딥 러닝 모델의 핵심에 있는 기본적인 최적화 알고리즘입니다. 주요 목표는 내부 파라미터를 반복적으로 조정하여 모델의 오류를 최소화하는 것입니다. 안개가 자욱한 산에 서서 가장 낮은 지점을 찾으려고 한다고 상상해 보세요. 발밑을 둘러보며 어느 방향으로 가장 가파르게 경사가 지는지 확인하고 그 방향으로 발걸음을 옮길 것입니다. 이 과정을 반복하면 결국 계곡에 도달하게 됩니다. 머신 러닝에서 '산'은 손실 함수이고, '방향'은 손실 함수의 음의 기울기이며, '스텝 크기'는 학습률입니다.

Gradient Descent는 어떻게 작동하나요?

신경망 학습 과정에는 가능한 가장 낮은 오류 또는 손실을 초래하는 최적의 모델 가중치 세트를 찾는 것이 포함됩니다. 경사 하강법은 이 검색을 자동화합니다. 이 과정은 각 가중치에 대한 손실 변화량을 측정하는 기울기를 계산하는 것으로 시작됩니다. 이 계산은 일반적으로 역전파 알고리즘을 사용하여 수행됩니다. 그런 다음 가중치는 기울기의 반대 방향으로 작은 단계를 수행하여 업데이트되어 손실 표면에서 "내리막"으로 이동합니다. 이 반복적인 과정은 모델의 성능이 수렴되고 손실이 최소화될 때까지 여러 에포크 동안 계속됩니다. 각 단계의 크기는 하이퍼파라미터 튜닝의 핵심 설정인 학습률에 따라 결정되는 중요한 요소입니다. 이 과정에 대한 자세한 개요는 Stanford CS231n 강의 노트와 같은 리소스에서 찾을 수 있습니다.

경사 하강법의 유형

경사 하강법에는 세 가지 주요 변형이 있으며, 각 변형은 각 가중치 업데이트에 대한 기울기를 계산하는 데 사용되는 데이터 양이 다릅니다.

  • 배치 경사 하강법(BGD): 전체 훈련 데이터 세트를 사용하여 기울기를 계산합니다. 이 접근 방식은 안정적이고 정확한 기울기를 제공하지만 계산 비용이 매우 비싸고 메모리 집약적이므로 ImageNet과 같은 대규모 데이터 세트에는 비실용적입니다.
  • SGD(Stochastic Gradient Descent): 무작위로 선택된 단일 데이터 샘플을 처리한 후 가중치를 업데이트합니다. BGD보다 훨씬 빠르고 메모리 집약도가 낮지만 업데이트가 노이즈가 많아 보다 불규칙한 수렴 경로로 이어집니다. 이 무작위성은 모델이 잘못된 로컬 최소값에서 벗어나는 데 도움이 될 수 있습니다.
  • 미니 배치 경사 하강법: 일반적으로 32~256개의 샘플로 구성된 데이터의 작은 임의 하위 집합("미니 배치")에서 경사를 계산하여 균형을 맞춥니다. 이는 SGD의 효율성과 BGD의 안정성을 결합하기 때문에 최신 딥러닝에서 가장 일반적으로 사용되는 접근 방식입니다. PyTorchTensorFlow와 같은 프레임워크는 옵티마이저에서 이 방법을 기본적으로 사용합니다. 자세한 비교는 경사 하강법 알고리즘에 대한 개요를 참조하십시오.

경사 하강법 vs. 관련 개념

경사 하강법을 여러 관련 용어와 구별하는 것이 중요합니다.

  • 최적화 알고리즘: 경사 하강법은 최적화 알고리즘 패밀리의 기본 개념입니다. Adam optimizer 또는 RMSprop과 같은 고급 최적화 프로그램은 각 매개변수에 대한 학습률을 개별적으로 조정하는 적응형 변형으로, 종종 더 빠른 수렴으로 이어집니다. arXiv에서 Adam 원본 논문을 찾을 수 있습니다.
  • 역전파: 역전파와 경사 하강법은 서로 구별되지만 연결된 두 가지 프로세스입니다. 역전파는 네트워크의 가중치와 관련하여 손실 함수의 기울기를 효율적으로 계산하는 알고리즘입니다. 경사 하강법은 이러한 기울기를 사용하여 가중치를 업데이트하는 알고리즘입니다.
  • 손실 함수: 손실 함수는 경사 하강법이 최소화하려는 목표를 정의합니다. 손실 함수(예: 이미지 분류를 위한 교차 엔트로피)를 선택하면 옵티마이저가 탐색하는 특정 오차 지형이 생성됩니다.

실제 애플리케이션

경사 하강법은 수많은 AI 모델의 학습을 지원하는 엔진입니다.

  1. 객체 감지 모델 학습: Ultralytics YOLO 모델이 COCO와 같은 대규모 데이터 세트에서 객체 감지를 위해 학습될 때마다 미니 배치 경사 하강법이 사용됩니다. 모델은 bounding box를 예측하고, 오류에 따라 손실이 계산되며, Gradient Descent는 정확도를 향상시키기 위해 모델의 backbone과 헤드 전체에서 수백만 개의 가중치를 조정합니다. 이 전체 워크플로는 Ultralytics HUB와 같은 플랫폼을 사용하여 관리하고 확장할 수 있습니다.
  2. 언어 모델 학습: 자연어 처리(NLP)에서 BERT와 같은 모델은 감성 분석과 같은 작업을 위해 학습됩니다. Gradient Descent는 모델이 예측한 감성과 실제 레이블 간의 차이를 측정하는 손실 함수를 최소화하여 모델이 방대한 텍스트 코퍼스에서 인간 언어의 뉘앙스를 학습할 수 있도록 합니다. Stanford NLP Group은 이 분야에 대한 광범위한 연구를 제공합니다.

과제 및 고려 사항

경사 하강법은 강력하지만 어려움이 없는 것은 아닙니다. 이 알고리즘은 손실 표면에서 절대 최저점이 아닌 로컬 최소값(계곡)에 갇힐 수 있습니다. 매우 심층적인 네트워크에서는 기울기가 너무 작거나 커서 가중치를 효과적으로 업데이트할 수 없는 기울기 소실 또는 기울기 폭발 문제가 발생할 수도 있습니다. 모델 학습 팁 가이드에 자세히 설명된 대로 학습률의 신중한 선택, 강력한 옵티마이저 선택 및 배치 정규화와 같은 기술은 성공적인 학습에 매우 중요합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.