일반화를 개선하고 과신을 줄이는 검증된 기술인 라벨 평활화로 AI 모델의 정확도와 견고성을 향상하세요.
라벨 평활화는 주로 머신러닝(ML) 과 딥러닝(DL)의 분류 작업에 사용되는 정규화 기법입니다. 주요 목적은 모델이 학습 데이터를 기반으로 예측을 지나치게 확신하는 것을 방지하는 것입니다. 지도 학습을 사용하는 표준 분류 훈련에서 모델은 일반적으로 올바른 클래스에는 확률 1이 할당되고 다른 모든 클래스에는 0이 할당되는 원핫 인코딩 형식으로 표현되는 "하드" 레이블을 사용하여 훈련됩니다. 라벨 평활화는 이러한 하드 타깃을 "소프트" 타깃으로 수정하여 올바른 클래스에 할당되는 신뢰도를 약간 낮추고 잘못된 클래스에는 소량의 확률 질량을 분산시킵니다. 이렇게 하면 모델이 덜 확실해지고 잠재적으로 보이지 않는 데이터에 대해 더 잘 일반화할 수 있습니다.
올바른 클래스에는 엄격한 1을 사용하고 그렇지 않은 클래스에는 0을 사용하는 대신(원핫 인코딩), 라벨 평활화는 이러한 목표 확률을 조정합니다. 예를 들어 다음과 같은 경우 K
클래스 및 평활화 계수 alpha
로 설정하면 올바른 클래스에 대한 목표 확률은 다음과 같습니다. 1 - alpha
로 설정하면 각 잘못된 클래스에 대한 확률은 다음과 같습니다. alpha / (K-1)
. 이 작은 조정은 대상 레이블 자체가 절대적인 확실성을 표현하지 않기 때문에 훈련 중에 단일 클래스에 매우 높은 확률(1에 가까운)을 할당하는 경우 모델에 불이익을 준다는 의미입니다. 이 기법은 특히 고급 이미지 분류 모델을 훈련할 때 "컴퓨터 비전을 위한 인셉션 아키텍처 다시 생각하기" 종이.
라벨 평활화를 구현하면 몇 가지 이점을 얻을 수 있습니다:
라벨 평활화는 다양한 영역의 분류 시나리오에 널리 적용됩니다:
모든 아키텍처에 대해 항상 명시적으로 자세히 설명되어 있는 것은 아니지만, 라벨 평활화와 같은 기술은 종종 최신 모델의 표준 학습 레시피에 포함되며, 잠재적으로 다음과 같은 객체 감지 모델을 포함할 수 있습니다. Ultralytics YOLO 와 같은 객체 탐지 모델에 포함되기도 하지만, 그 영향은 특정 작업과 데이터 세트에 따라 달라질 수 있습니다.
라벨 평활화는 유용하지만 신중하게 적용해야 합니다. 평활화 계수(알파)는 조정이 필요한 하이퍼파라미터로, 값이 너무 작으면 효과가 거의 없을 수 있고, 너무 크면 레이블의 정보가 너무 적어 학습에 방해가 될 수 있습니다. 모델 보정에 미치는 영향은 긍정적인 경우가 많지만 특정 애플리케이션에 맞게 평가해야 하며, 경우에 따라 사후 보정 방법이 필요할 수도 있습니다. 다음과 같은 최신 딥 러닝 프레임워크에서 자주 사용되는 간단하면서도 효과적인 도구입니다. PyTorch 및 TensorFlow.