용어집

교차 유효성 검사

모델 정확도를 높이고, 과적합을 방지하며, 강력한 성능을 보장하는 머신 러닝의 교차 검증의 힘을 알아보세요.

교차 검증은 통계 분석 결과가 독립적인 데이터 세트에 어떻게 일반화되는지 평가하는 데 사용되는 머신 러닝(ML) 의 강력한 모델 평가 기법입니다. 이는 제한된 데이터 샘플에서 ML 모델을 평가하는 데 사용되는 리샘플링 절차입니다. 주요 목표는 모델이 학습 데이터를 너무 잘 학습하여 보이지 않는 새로운 데이터에서 성능이 저하되는 과적합을 방지하는 것입니다. 교차 검증은 모델이 실제 환경에서 어떻게 작동하는지 시뮬레이션함으로써 모델 성능에 대한 보다 강력하고 신뢰할 수 있는 추정치를 제공합니다.

교차 유효성 검사의 작동 방식

교차 유효성 검사의 가장 일반적인 방법은 K-Fold 교차 유효성 검사입니다. 이 프로세스에는 단일 데이터 집합을 여러 부분으로 분할하는 작업이 포함됩니다:

  1. 데이터 분할하기: 전체 학습 데이터 세트가 'k' 개의 동일한 크기의 하위 집합, 즉 "폴드"로 무작위로 분할됩니다.
  2. 반복 학습 및 검증: 모델은 'k'번 훈련됩니다. 각 반복에서 폴드 중 하나가 유효성 검사 집합으로 유지되고 나머지 k-1개의 폴드에 대해 모델이 학습됩니다.
  3. 성능 평가: 모델의 성능은 홀드아웃 폴드에서 평가됩니다. 정확도 또는 평균 평균 정밀도(mAP)와 같은 주요 지표가 각 반복에 대해 기록됩니다.
  4. 결과 평균화: 모든 'k' 반복을 완료한 후 성능 메트릭을 평균화하여 모델의 효과에 대한 보다 안정적인 단일 추정치를 생성합니다.

이 접근 방식은 모든 데이터 포인트가 정확히 한 번만 유효성 검사 집합에 포함되고 훈련 집합에 k-1번만 포함되도록 보장합니다. 구현에 대한 자세한 가이드는 Ultralytics K-Fold 교차 검증 가이드에서 확인할 수 있습니다.

교차 유효성 검사 대 단순 유효성 검사 분할

일반적인 ML 프로젝트에서 데이터는 학습, 검증, 테스트 세트로 나뉩니다.

단순한 훈련/검증 분할은 검증 세트에 유난히 쉽거나 어려운 샘플이 포함되어 있는 경우 오해의 소지가 있을 수 있습니다. 교차 검증은 데이터 세트의 모든 부분을 학습과 검증에 모두 사용하여 모델의 일반화 능력에 대한 보다 신뢰할 수 있는 척도를 제공함으로써 이러한 문제를 해결합니다. 따라서 사용 가능한 데이터의 양이 제한되어 있을 때 특히 유용합니다. Scikit-learn과 같이 널리 사용되는 프레임워크는 교차 검증 기법을 강력하게 구현합니다.

실제 애플리케이션

교차 검증은 다양한 영역에서 신뢰할 수 있는 AI 시스템을 구축하는 데 필수적인 요소입니다:

  1. 의료 이미지 분석: 뇌종양 데이터 세트와 같은 데이터 세트를 사용하여 뇌 스캔에서 종양을 탐지하는 등 의료 이미지 분석용 컨볼루션 신경망(CNN) 을 개발할 때, CV는 다양한 환자 데이터에 대한 모델의 진단 정확도와 일반화를 엄격하게 평가하는 데 사용됩니다. 이러한 강력한 평가는 임상시험을 고려하거나 FDA와 같은 기관의 규제 승인을 받기 전에 매우 중요합니다.
  2. 자율주행 차량: 자율주행 차량에 사용되는 Ultralytics YOLO와 같은 객체 감지 모델의 경우, CV는 다양한 환경 조건에서 보행자, 자전거 운전자 및 기타 차량을 감지할 때 안정적인 성능을 보장하는 데 도움이 됩니다. 자동차 솔루션의 AI와 같이 안전이 중요한 시스템에서 모델을 배포하기 전에 Argoverse와 같은 복잡한 데이터 세트에 대한 이러한 검증은 매우 중요합니다.

다른 애플리케이션으로는 이미지 세분화를 위한 모델 평가, 감정 분석과 같은 자연어 처리(NLP) 작업, 재무 모델링의 위험 평가 등이 있습니다. 이러한 평가 기법에서 생성되는 실험과 아티팩트를 관리하여 개발 라이프사이클을 간소화하는 데 Ultralytics HUB와 같은 플랫폼이 도움이 될 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨