사라지는 기울기 문제가 딥 러닝에 미치는 영향을 알아보고, Ultralytics 사용되는 ReLU 및 잔차 연결과 같은 효과적인 해결책을 탐구해 보세요.
소멸하는 기울기 문제는 심층 인공 신경망 훈련 과정에서 발생하는 중대한 과제이다. 이 문제는 기울기(네트워크 매개변수의 변화량을 결정하는 값)가 출력층에서 입력층으로 역전파될 때 극도로 작아지면서 발생한다. 이러한 기울기는 모델 가중치 업데이트에 필수적이므로, 그 소멸은 네트워크의 초기 층들이 학습을 중단함을 의미한다. 이 현상은 모델이 데이터 내 복잡한 패턴을 포착하는 것을 효과적으로 방해하여 딥 러닝 아키텍처의 깊이와 성능을 제한합니다.
이러한 현상이 발생하는 이유를 이해하려면 역전파 과정을 살펴보는 것이 도움이 됩니다. 훈련 과정에서 신경망은 손실 함수를 사용하여 예측값과 실제 목표값 사이의 오차를 계산합니다. 이 오차는 이후 레이어를 거슬러 올라가 가중치를 조정하기 위해 전달됩니다. 이러한 조정은 미적분학의 연쇄 법칙에 의존하며, 이는 활성화 함수의 미분값을 레이어별로 곱하는 과정을 포함합니다.
시그모이드 함수나 쌍곡 탄젠트(tanh)와 같은 활성화 함수를 사용하는 네트워크에서는 미분값이 종종 1보다 작습니다. 수십 또는 수백 개의 층으로 구성된 심층 신경망에서 이러한 작은 숫자들이 서로 곱해지면 결과는 0에 가까워집니다. 이 현상은 마치 긴 줄에 선 사람들 사이에서 속삭여 전달되는 "전화놀이"를 연상케 합니다. 메시지가 줄 맨 앞까지 도달할 때쯤이면 메시지는 알아들을 수 없을 정도로 왜곡되어, 첫 번째 사람은 무엇을 말해야 할지 모르게 됩니다.
인공지능 분야는 소실되는 기울기를 완화하기 위한 여러 강력한 전략을 개발하여 Ultralytics 같은 강력한 모델의 생성을 가능케 했습니다.
비록 동일한 근본적 메커니즘(반복적 곱셈)에서 비롯되지만, 소멸하는 기울기는 폭발하는 기울기와는 구별된다.
NaN (숫자가 아님). 이는 종종 다음 방법으로 해결됩니다.
경사 클리핑.
사라지는 기울기 문제를 극복하는 것은 현대 AI 애플리케이션의 성공을 위한 필수 조건이었다.
현대적인 프레임워크와 모델은 이러한 복잡성 대부분을 추상화합니다. YOLO26과 같은 모델을 훈련할 때, 아키텍처는 자동으로 SiLU 활성화 함수나 배치 정규화 같은 구성 요소를 포함하여 경사도 소멸을 방지합니다.
from ultralytics import YOLO
# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")
# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)