용어집

기울기 폭발

객체 감지, 자세 추정 등과 같은 작업을 위한 안정적인 훈련을 보장하기 위해 딥 러닝에서 폭발적인 기울기를 관리하는 방법을 알아보세요.

폭발하는 기울기는 심층 신경망의 훈련 중에 손실 함수의 기울기가 누적되어 손실 함수의 기울기가 누적되어 과도하게 커지는 것을 말합니다. 이 현상은 손실 함수를 계산하는 데 사용되는 역전파, 오류 파생물을 계산하는 데 사용되는 프로세스 오류 파생물을 계산하고 모델 가중치를 업데이트하는 데 사용되는 프로세스인 역전파 중에 발생합니다. 언제 이러한 기울기가 기하급수적으로 증가하면 최적화 알고리즘이 최적화 알고리즘이 네트워크 매개변수를 네트워크 파라미터를 대규모로 업데이트해야 합니다. 결과적으로 모델이 최적의 구성을 초과하여 손실 값이 변동하는 손실 값이 급격하게 변동하는 다이버전트 트레이닝 프로세스 급격하게 변동하거나 NaN(숫자가 아님)이 되어 모델이 학습 데이터로부터 학습할 수 없게 됩니다. 학습할 수 없게 됩니다.

원인 및 메커니즘

그래디언트 폭발의 근본 원인은 딥 아키텍처에서 파생물을 계산하는 데 사용되는 수학적 체인 규칙에 있습니다. 아키텍처에서 미분을 계산하는 데 사용되는 수학적 체인 규칙에 있습니다. 오류가 출력 레이어에서 입력 레이어로 역전파될 때, 오류에는 각 중간 레이어의 가중치가 곱해집니다.

딥 네트워크 깊이: 다음과 같은 매우 심층적인 네트워크에서는 딥 러닝(DL)과 같은 매우 깊은 네트워크에서는 많은 그라디언트 를 1.0보다 크게 곱하면 복리와 비슷하게 각 레이어마다 기하급수적으로 증가하는 값이 생성됩니다.
초기화 불량: 초기 가중치가 너무 높게 설정된 경우, 신호는 모든 단계에서 증폭됩니다. 적절한 적절한 가중치 초기화 전략은 신호를 관리 가능한 범위 내로 유지하는 데 필수적입니다.
높은 학습률: A 학습 속도가 너무 공격적이면 문제를 악화시킬 수 있습니다. 문제를 악화시켜 옵티마이저가 너무 큰 단계를 수행하여 모델을 불안정한 오류 영역으로 밀어넣을 수 있습니다. 오류 영역으로 밀어 넣을 수 있습니다.
반복되는 아키텍처: 이 문제는 다음에서 악명 높은 것으로 알려져 있습니다. 순환 신경망(RNN), 동일한 가중치를 오랜 시간 동안 반복적으로 적용하는 경우에 흔히 발생합니다.

예방을 위한 전략

최신 AI 프레임워크와 아키텍처는 이러한 위험을 완화하기 위해 특정 기술을 사용하여 안정적인 융합을 보장합니다.

그라데이션 클리핑: 가장 직접적인 해결책입니다. 그래디언트 벡터의 크기가 미리 정의된 임계값을 초과하는 경우 를 축소하는 것입니다. 이렇게 하면 업데이트가 합리적인 한도 내에서 유지됩니다, 업데이트가 합리적인 한도 내에서 유지되도록 합니다. 그라데이션 클리핑에 대한 자세한 내용은 그라디언트 클리핑의 메커니즘 기술 가이드에서 자세히 알아보세요.
일괄 정규화: 레이어 입력을 정규화하여 배치 정규화는 네트워크 전체의 네트워크 전체의 활성화 분포를 안정화하여 값이 통제 불능 상태가 되는 것을 방지합니다.
가중치 정규화: L1 및 L2 정규화와 같은 기술은 큰 가중치 값에 불이익을 줍니다, 모델이 그라데이션을 증폭시킬 수 있는 파라미터를 유지하지 못하도록 합니다.
고급 옵티마이저: 다음과 같은 알고리즘은 Adam 옵티마이저와 같은 알고리즘은 각 파라미터의 학습 속도를 매개변수에 따라 학습 속도를 조정하여 표준보다 일관되지 않은 그라데이션 스케일을 더 잘 처리할 수 있습니다. 확률적 그라데이션 하강(SGD).

다음 사항 PyTorch 스니펫은 그라데이션 클리핑을 구현하는 방법을 보여줍니다. 과 같은 고급 교육 워크플로우에서 자동으로 처리되는 기술을 수동으로 구현하는 방법을 보여줍니다. ultralytics:

import torch
import torch.nn as nn

# Define a simple linear model and optimizer
model = nn.Linear(10, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

# Simulate a training step
loss = model(torch.randn(10)).sum()
loss.backward()

# Apply gradient clipping to prevent explosion before the optimizer step
# This limits the maximum norm of the gradients to 1.0
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

optimizer.step()