용어집

그라데이션 하강

그라디언트 데센트가 어떻게 울트라틱스 욜로와 같은 AI 모델을 최적화하여 의료 서비스부터 자율 주행 자동차에 이르기까지 다양한 작업에서 정확한 예측을 가능하게 하는지 알아보세요.

그라디언트 하강은 대부분의 머신러닝(ML)딥러닝 모델의 핵심이 되는 기본적인 최적화 알고리즘입니다. 이 알고리즘의 주요 목표는 내부 파라미터를 반복적으로 조정하여 모델의 오류를 최소화하는 것입니다. 안개가 자욱한 산 위에 서서 가장 낮은 지점을 찾으려고 한다고 상상해 보세요. 발 주변을 둘러보며 어느 방향이 가장 가파르게 내려가는지 확인하고 그 방향으로 한 발짝 내딛을 것입니다. 이 과정을 반복하면 결국 계곡에 도달하게 됩니다. 머신러닝에서 '산'은 손실 함수, '방향'은 손실 함수의 음의 기울기, '걸음 크기'는 학습 속도입니다.

그라디언트 하강 작동 방식

신경망의 훈련 과정에는 가능한 가장 낮은 오류 또는 손실을 초래하는 최적의 모델 가중치 집합을 찾는 과정이 포함됩니다. 그라데이션 하강은 이 검색을 자동화합니다. 이 프로세스는 각 가중치에 따라 손실이 얼마나 변화하는지를 측정하는 기울기를 계산하는 것으로 시작됩니다. 이 계산은 일반적으로 역전파 알고리즘을 사용하여 수행됩니다. 그런 다음 기울기의 반대 방향으로 작은 단계를 밟아 가중치를 업데이트하여 손실 표면에서 효과적으로 "내리막길"로 이동합니다. 이 반복 프로세스는 모델의 성능이 수렴하고 손실이 최소화될 때까지 여러 시대에 걸쳐 계속됩니다. 각 단계의 크기는 하이퍼파라미터 튜닝의 핵심 설정인 학습 속도에 의해 결정되는 중요한 요소입니다. 이 프로세스에 대한 자세한 개요는 스탠포드 CS231n 강의 노트와 같은 리소스에서 확인할 수 있습니다.

그라디언트 하강의 유형

그라데이션 하강에는 세 가지 주요 변형이 있으며, 각 가중치 업데이트에 대한 그라데이션을 계산하는 데 사용되는 데이터의 양이 각각 다릅니다:

  • 일괄 경사 하강(BGD): 전체 훈련 데이터 세트를 사용하여 기울기를 계산합니다. 이 접근 방식은 안정적이고 정확한 그라데이션을 제공하지만 계산 비용이 매우 비싸고 메모리 집약적이어서 ImageNet과 같은 대규모 데이터 세트에는 실용적이지 않습니다.
  • 확률적 그라디언트 하강(SGD): 무작위로 선택된 단일 데이터 샘플만 처리한 후 가중치를 업데이트합니다. BGD보다 훨씬 빠르고 메모리 사용량이 적지만 업데이트 시 노이즈가 발생하여 수렴 경로가 더 불규칙해질 수 있습니다. 이러한 무작위성은 때때로 모델이 열악한 로컬 최소값을 벗어나는 데 도움이 될 수 있습니다.
  • 미니 배치 그라데이션 하강: 데이터의 작은 무작위 하위 집합("미니 배치")에서 그라데이션을 계산하여 균형을 맞춥니다(일반적으로 32개에서 256개의 샘플). 이는 SGD의 효율성과 BGD의 안정성을 결합하기 때문에 최신 딥 러닝에서 가장 일반적으로 사용되는 접근 방식입니다. PyTorchTensorFlow와 같은 프레임워크는 최적화 도구에서 기본적으로 이 방법을 사용합니다. 자세한 비교는 경사 하강 알고리즘에 대한 개요를 참조하세요.

그라데이션 하강과 관련 개념 비교

그라데이션 하강을 여러 관련 용어와 구별하는 것이 중요합니다:

  • 최적화 알고리즘: 그라디언트 하강은 최적화 알고리즘 제품군의 기본 개념입니다. Adam 옵티마이저 또는 RMSprop과 같은 고급 옵티마이저는 각 매개변수에 대한 학습 속도를 개별적으로 조정하는 적응형 변형으로, 종종 더 빠른 수렴으로 이어집니다. Adam의 원본 논문은 arXiv에서 찾을 수 있습니다.
  • 역전파: 역전파: 역전파와 그라데이션 하강은 서로 다르지만 서로 연결된 두 가지 프로세스입니다. 역전파는 네트워크의 가중치에 대한 손실 함수의 기울기를 효율적으로 계산하는 알고리즘입니다. 그라데이션 하강은 이러한 그라데이션을 사용하여 가중치를 업데이트하는 알고리즘입니다.
  • 손실 함수: 손실 함수는 그라데이션 하강이 최소화하고자 하는 목표를 정의합니다. 손실 함수(예: 이미지 분류를 위한 교차 엔트로피)를 선택하면 옵티마이저가 탐색하는 특정 오류 환경이 만들어집니다.

실제 애플리케이션

그라데이션 하강은 수많은 AI 모델의 학습을 지원하는 엔진입니다.

  1. 객체 감지 모델 훈련: COCO와 같은 대규모 데이터 세트에서 객체 감지를 위해 Ultralytics YOLO 모델을 훈련할 때, 모든 반복에서 미니 배치 기울기 하강이 사용됩니다. 모델은 경계 상자를 예측하고, 오차를 기반으로 손실을 계산하며, 그라데이션 하강은 모델의 백본과 헤드 전체에 걸쳐 수백만 개의 가중치를 조정하여 정확도를 향상시킵니다. 이 전체 워크플로는 Ultralytics HUB와 같은 플랫폼을 사용하여 관리 및 확장할 수 있습니다.
  2. 언어 모델 학습: 자연어 처리(NLP)에서 BERT와 같은 모델은 감정 분석과 같은 작업을 위해 훈련됩니다. 그라데이션 하강은 모델의 예측된 감정과 실제 레이블 간의 차이를 측정하는 손실 함수를 최소화하여 모델이 방대한 텍스트 코퍼스로부터 인간 언어의 뉘앙스를 학습할 수 있도록 합니다. 스탠포드 NLP 그룹은 이 분야에 대한 광범위한 연구를 진행하고 있습니다.

도전 과제 및 고려 사항

경사 하강은 강력하지만 문제가 없는 것은 아닙니다. 이 알고리즘은 손실 표면의 절대 최저점이 아닌 국소적인 최소 계곡에서 멈출 수 있습니다. 또한 매우 깊은 네트워크에서는 경사도가 너무 작거나 너무 커져 가중치를 효과적으로 업데이트할 수 없는 소실 경사도 또는 폭발 경사도 문제가 발생할 수 있습니다. 성공적인 학습을 위해서는 모델 학습 팁 가이드에 자세히 설명된 대로 학습 속도, 강력한 최적화 도구 선택, 일괄 정규화와 같은 기술을 신중하게 선택하는 것이 중요합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨