언더피팅
전문가 팁, 전략 및 실제 사례를 통해 머신러닝 모델에서 부적합을 식별하고, 예방하고, 해결하는 방법을 알아보세요.
과소적합은 머신러닝(ML) 에서 모델이 너무 단순하여 학습 데이터의 기본 패턴을 포착하지 못하는 경우 흔히 발생하는 문제입니다. 이러한 단순성으로 인해 입력 특징과 목표 변수 간의 관계를 학습하지 못하여 학습된 데이터와 보이지 않는 새로운 데이터 모두에서 성능이 저하될 수 있습니다. 적합하지 않은 모델은 편향성이 높기 때문에 데이터에 대해 강력하고 종종 잘못된 가정을 하게 됩니다. 그 결과 모델은 높은 수준의 정확도를 달성하지 못하고 일반화할 수 없게 됩니다.
과소 피팅 대. 과적합
과소적합과 과적합은 학습 데이터에서 새로운 데이터로 일반화하는 모델의 능력과 관련된 ML의 두 가지 주요 과제입니다. 이는 모델 복잡성의 스펙트럼에서 두 가지 극단을 나타냅니다.
- 적합하지 않습니다: 모델이 너무 단순하고 편향성이 높습니다. 데이터의 기본 구조를 학습하지 못하여 손실 함수 값이 높고 학습 및 검증 데이터 세트 모두에서 성능이 저하됩니다.
- 과적합: 모델이 너무 복잡하고 분산이 큰 경우. 노이즈와 무작위 변동을 포함하여 훈련 데이터를 너무 잘 학습합니다. 이 경우 모델이 일반적인 패턴을 학습하는 대신 훈련 예제를 암기하기 때문에 훈련 세트에서는 우수한 성능을 보이지만 보이지 않는 데이터에서는 성능이 저하됩니다.
ML의 궁극적인 목표는 편향-편차 트레이드오프라는 개념으로 알려진 이 두 가지 사이의 균형을 유지하여 새로운 실제 시나리오에 효과적으로 일반화할 수 있는 모델을 만드는 것입니다. 학습 곡선 분석은 모델이 과소 적합, 과대 적합 또는 잘 맞는지 진단하는 일반적인 방법입니다.
부적합의 원인과 해결 방법
효과적인 모델을 구축하려면 적합도 미달을 식별하고 해결하는 것이 중요합니다. 이 문제는 일반적으로 몇 가지 일반적인 원인에서 비롯되며, 각각에 해당하는 해결책이 있습니다.
- 모델이 너무 단순함: 복잡한 비선형 문제에 선형 모델을 사용하는 것은 과소적합의 대표적인 원인입니다.
- 솔루션: 모델 복잡도를 높입니다. 여기에는 더 심층적인 신경망과 같은 더 강력한 모델 아키텍처로 전환하거나, 더 작은 Ultralytics YOLO 모델 변형에서 더 큰 모델 변형으로 이동하는 것과 같이 사전 학습된 더 큰 모델로 전환하는 것이 포함될 수 있습니다. 다양한 YOLO 모델 비교를 통해 더 적합한 아키텍처를 선택할 수 있습니다.
- 불충분하거나 품질이 좋지 않은 기능: 모델에 제공된 입력 기능에 정확한 예측을 할 수 있는 충분한 정보가 포함되어 있지 않으면 모델이 적합하지 않게 됩니다.
- 불충분한 교육: 모델이 충분히 훈련되지 않았을 수 있습니다. epochs 를 사용하여 데이터의 패턴을 학습합니다.
- 과도한 정규화: 다음과 같은 기술 L1 및 L2 정규화 또는 높음 드롭아웃 비율은 과적합을 방지하기 위해 사용되지만 너무 공격적일 경우 모델을 지나치게 제약하여 과소적합을 유발할 수 있습니다.
- 해결책: 정규화의 양을 줄입니다. 이는 정규화 함수의 페널티 기간을 낮추거나 탈락률을 낮추는 것을 의미할 수 있습니다. 모델 학습 모범 사례를 따르면 적절한 균형을 찾는 데 도움이 될 수 있습니다.
언더피팅의 실제 사례
- 간단한 이미지 분류기: 이미지넷 데이터 세트에서 수천 개의 객체 카테고리를 식별하는 것과 같은 복잡한 이미지 분류 작업에 대해 한두 개의 레이어만 있는 아주 기본적인 컨볼루션 신경망(CNN) 을 훈련시킨다고 상상해 보세요. 모델의 제한된 용량으로 인해 수많은 클래스를 구분하는 데 필요한 복잡한 특징을 학습할 수 없어 학습 데이터와 테스트 데이터 모두에서 정확도가 떨어질 수 있습니다. PyTorch 및 TensorFlow와 같은 프레임워크는 이를 극복하기 위해 보다 정교한 아키텍처를 구축할 수 있는 도구를 제공합니다.
- 기본 예측 유지보수: 예측 모델링에 단순 선형 회귀 모델을 사용하여 작동 온도만을 기준으로 기계의 고장 시기를 예측하는 것을 고려해 보세요. 기계 고장이 실제로 진동, 수명, 압력 등의 복잡한 비선형적 상호 작용에 의해 영향을 받는다면 단순 선형 모델은 적합하지 않을 것입니다. 시스템의 실제 복잡성을 포착할 수 없기 때문에 예측 성능이 떨어지고 고장을 정확하게 예측할 수 없습니다. 그라데이션 부스팅 머신이나 신경망과 같은 더 복잡한 모델이 더 적합할 수 있습니다.