용어집

라벨 스무딩

일반화를 개선하고 과신을 줄이는 검증된 기술인 라벨 평활화로 AI 모델의 정확도와 견고성을 향상하세요.

라벨 평활화는 머신러닝 모델을 훈련할 때, 특히 분류 작업에서 사용되는 정규화 기법입니다. 이는 모델이 올바른 클래스에 전체 확률 1.0을 할당하지 못하도록 함으로써 모델 과신 문제를 해결합니다. 라벨 스무딩은 "하드" 라벨(올바른 클래스가 1이고 다른 모든 클래스가 0인 경우)을 사용하는 대신 "소프트" 라벨을 생성하여 확률 질량의 일부를 다른 클래스에 분배합니다. 이렇게 하면 모델의 예측에 대한 확신이 낮아져 보이지 않는 데이터에 대한 일반화 및 성능 향상으로 이어질 수 있습니다. 이 기법은 특히 고성능 모델에 사용되었으며, 라벨 평활화는 언제 도움이 되나요? 등의 문서에 자세히 설명되어 있습니다.

라벨 평활화 작동 방식

일반적인 지도 학습 분류 문제에서 훈련 데이터는 입력과 그에 해당하는 올바른 레이블로 구성됩니다. 예를 들어 이미지 분류 작업에서 고양이의 이미지에는 [고양이, 개, 새] 클래스와 같이 '고양이'라는 레이블이 하나의 핫 인코딩된 벡터로 표현됩니다. 손실 함수를 계산할 때 모델은 예측이 이 어려운 목표에서 얼마나 멀리 떨어져 있는지에 따라 페널티를 받습니다.

라벨 스무딩은 이 목표를 수정합니다. 올바른 클래스에 대한 목표 확률을 약간 낮추고(예: 0.9로) 나머지 작은 확률(이 경우 0.1)을 잘못된 클래스에 균등하게 분배합니다. 따라서 새로운 "소프트" 타겟은 [0.9, 0.05, 0.05]와 같이 보일 수 있습니다. 이 작은 변화는 신경망의 최종 로지트 레이어가 한 클래스에 대해 매우 큰 값을 생성하지 못하도록 하여 과적합을 방지하는 데 도움이 됩니다. 이 프로세스는 모델 훈련 중에 Ultralytics HUB와 같은 플랫폼을 사용하여 관리할 수 있습니다.

라벨 스무딩의 이점

라벨 스무딩의 가장 큰 장점은 모델 보정을 개선한다는 것입니다. 잘 보정된 모델의 예측 신뢰도 점수는 실제 정확도 확률을 더 정확하게 반영합니다. 이는 의료 이미지 분석과 같이 모델의 확실성을 이해하는 것이 중요한 애플리케이션에 매우 중요합니다. 또한 과신을 방지함으로써 모든 머신 러닝 프로젝트의 핵심 목표인 새로운 데이터로 일반화하는 모델의 능력을 향상시킵니다. 이로 인해 정확도가 약간 향상되는 경우가 많습니다. 일반화 능력이 향상되면 실시간 추론과 최종 모델 배포를 위한 더 강력한 모델이 만들어집니다.

실제 애플리케이션

라벨 스무딩은 다양한 최신 모델에 적용되는 간단하면서도 효과적인 기법입니다.

  1. 대규모 이미지 분류: 이미지넷과 같은 대규모 데이터 세트에서 이미지 분류 작업을 위해 훈련된 Ultralytics YOLO와 같은 모델은 종종 라벨 평활화를 사용합니다. 이러한 데이터 세트에는 때때로 데이터 라벨링 프로세스에서 노이즈가 있거나 잘못된 라벨이 포함될 수 있습니다. 라벨 스무딩은 이러한 라벨 노이즈에 대해 모델을 더욱 강력하게 만들어 잠재적으로 잘못된 라벨에 대해 지나치게 확신하는 학습을 방지합니다. 프로젝트를 위한 다양한 분류 데이터 세트를 탐색할 수 있습니다.
  2. 자연어 처리(NLP): 기계 번역과 같은 작업에서는 하나의 구문에 대해 여러 개의 유효한 번역이 있을 수 있습니다. Transformer와 같은 모델에 사용되는 레이블 평활화는 모델이 어휘에서 하나의 올바른 단어에 1.0의 확률을 할당하지 않도록 하여 다른 단어도 적합할 수 있음을 인정합니다. 이 개념은 최신 NLP의 기본 개념이며 스탠포드 NLP 그룹과 같은 기관의 리소스에서 논의되고 있습니다.

라벨 평활화 대 관련 개념

라벨 스무딩을 다른 정규화 기법과 구별하는 것이 중요합니다.

  • 하드 레이블: 모델이 절대적으로 확실하게 학습되는 표준 접근 방식입니다(올바른 클래스의 경우 100%). 라벨 스무딩은 이에 대한 직접적인 대안입니다.
  • 데이터 증강: 기존 데이터에 변환을 적용하여 새로운 학습 예제를 생성하는 또 다른 정규화 기법입니다. 데이터 세트의 다양성을 증가시키는 반면, 레이블 스무딩은 대상 값 자체를 수정합니다. YOLO 데이터 증강에 대한 가이드는 Ultralytics 설명서에서 찾을 수 있습니다.
  • 드롭아웃: 이 방법은 복잡한 공동 적응을 방지하기 위해 각 훈련 단계에서 뉴런의 일부를 무작위로 비활성화합니다. 이 방법은 훈련 중에 모델의 아키텍처를 수정하는 반면, 라벨 평활화는 손실 계산을 수정합니다. 드롭아웃에 대한 자세한 내용은 GeeksforGeeks의 해당 주제에 대한 문서에서 확인할 수 있습니다.
  • 지식 증류: 이 기법에서는 미리 학습된 대규모 '교사' 모델에서 생성된 소프트 레이블을 사용해 소규모 '학생' 모델을 학습시킵니다. 또한 소프트 레이블을 사용하지만, 이러한 레이블의 출처는 라벨 평활화에서와 같이 기준 진실 레이블에 적용되는 단순한 휴리스틱이 아니라 다른 모델의 예측입니다. 신경망에서 지식 추출하기 문서에서 이 개념에 대한 기초적인 이해를 얻을 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨