Yolo 비전 선전
선전
지금 참여하기
용어집

기울기 소실

사라지는 기울기 문제가 딥 러닝에 미치는 영향을 알아보고, Ultralytics 사용되는 ReLU 및 잔차 연결과 같은 효과적인 해결책을 탐구해 보세요.

소멸하는 기울기 문제는 심층 인공 신경망 훈련 과정에서 발생하는 중대한 과제이다. 이 문제는 기울기(네트워크 매개변수의 변화량을 결정하는 값)가 출력층에서 입력층으로 역전파될 때 극도로 작아지면서 발생한다. 이러한 기울기는 모델 가중치 업데이트에 필수적이므로, 그 소멸은 네트워크의 초기 층들이 학습을 중단함을 의미한다. 이 현상은 모델이 데이터 내 복잡한 패턴을 포착하는 것을 효과적으로 방해하여 딥 러닝 아키텍처의 깊이와 성능을 제한합니다.

사라지는 신호의 메커니즘

이러한 현상이 발생하는 이유를 이해하려면 역전파 과정을 살펴보는 것이 도움이 됩니다. 훈련 과정에서 신경망은 손실 함수를 사용하여 예측값과 실제 목표값 사이의 오차를 계산합니다. 이 오차는 이후 레이어를 거슬러 올라가 가중치를 조정하기 위해 전달됩니다. 이러한 조정은 미적분학의 연쇄 법칙에 의존하며, 이는 활성화 함수의 미분값을 레이어별로 곱하는 과정을 포함합니다.

시그모이드 함수나 쌍곡 탄젠트(tanh)와 같은 활성화 함수를 사용하는 네트워크에서는 미분값이 종종 1보다 작습니다. 수십 또는 수백 개의 층으로 구성된 심층 신경망에서 이러한 작은 숫자들이 서로 곱해지면 결과는 0에 가까워집니다. 이 현상은 마치 긴 줄에 선 사람들 사이에서 속삭여 전달되는 "전화놀이"를 연상케 합니다. 메시지가 줄 맨 앞까지 도달할 때쯤이면 메시지는 알아들을 수 없을 정도로 왜곡되어, 첫 번째 사람은 무엇을 말해야 할지 모르게 됩니다.

솔루션 및 현대적 아키텍처

인공지능 분야는 소실되는 기울기를 완화하기 위한 여러 강력한 전략을 개발하여 Ultralytics 같은 강력한 모델의 생성을 가능케 했습니다.

  • ReLU 및 변형: 정류 선형 단위(ReLU) 와 그 후속 변형들(예: 누설 ReLU, SiLU)은 양수 값에서 포화되지 않습니다. 이들의 미분값은 1 또는 작은 상수이므로 깊은 레이어를 통과할 때도 기울기 크기를 보존합니다.
  • 잔여 연결: 잔여 네트워크(ResNet)에서 도입된 이 연결은 "스킵 연결"로, 기울기가 하나 이상의 레이어를 우회할 수 있게 합니다. 이는 기울기가 방해받지 않고 이전 레이어로 흐를 수 있는 "초고속도로"를 생성하며, 현대적 물체 탐지에 필수적인 개념입니다.
  • 배치 정규화: 각 레이어의 입력을 정규화함으로써, 배치 정규화는 네트워크가 미분값이 지나치게 작지 않은 안정적인 영역에서 작동하도록 보장하여, 신중한 초기화에 대한 의존도를 줄입니다.
  • 게이트드 아키텍처: 순차적 데이터의 경우, 장단기 기억(LSTM)네트워크와 GRU는 특화된 게이트를 사용하여 유지하거나 잊어야 할 정보의 양을 결정함으로써, 긴 시퀀스에서 기울기가 사라지는 현상을 효과적으로 차단합니다.

사라지는 그라디언트 vs. 폭발하는 그라디언트

비록 동일한 근본적 메커니즘(반복적 곱셈)에서 비롯되지만, 소멸하는 기울기는 폭발하는 기울기와는 구별된다.

  • 사라지는 기울기: 기울기가 0에 가까워져 학습이 중단되는 현상. 시그모이드 활성화 함수를 사용하는 심층 신경망에서 흔히 발생한다.
  • 폭발하는 그라디언트: 경사가 누적되어 지나치게 커져서 모델 가중치 격변하거나 도달하다 NaN (숫자가 아님). 이는 종종 다음 방법으로 해결됩니다. 경사 클리핑.

실제 애플리케이션

사라지는 기울기 문제를 극복하는 것은 현대 AI 애플리케이션의 성공을 위한 필수 조건이었다.

  1. 심층 객체 탐지: 자율주행 차량에 사용되는 YOLO 같은 모델들은 보행자, 표지판, 차량을 구분하기 위해 수백 개의 레이어가 필요합니다. 잔차 블록이나 배치 정규화와 같은 해결책 없이는 이러한 심층 신경망을 대규모 데이터셋 (예: COCO 과 같은 방대한 데이터셋에서 훈련하는 것은 불가능했을 것입니다. Ultralytics 도구는 이러한 훈련 과정을 간소화하여 복잡한 아키텍처가 올바르게 수렴하도록 보장합니다.
  2. 기계 번역: 자연어 처리(NLP)에서 긴 문장을 번역하려면 첫 단어와 마지막 단어 간의 관계를 이해해야 합니다. 순환 신경망(RNN)에서 사라지는 기울기 문제(LSTM을 통해)를 해결하고 이후 트랜스포머를 도입함으로써 모델이 긴 문단 전체에 걸쳐 맥락을 유지할 수 있게 되었으며, 이는 Google 번역과 같은 기계 번역 서비스에 혁명을 가져왔습니다.

Python

현대적인 프레임워크와 모델은 이러한 복잡성 대부분을 추상화합니다. YOLO26과 같은 모델을 훈련할 때, 아키텍처는 자동으로 SiLU 활성화 함수나 배치 정규화 같은 구성 요소를 포함하여 경사도 소멸을 방지합니다.

from ultralytics import YOLO

# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")

# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기