Yolo 비전 선전
선전
지금 참여하기
용어집

테스트 데이터

AI에서 테스트 데이터의 중요성, 모델 성능 평가, 과적합 감지 및 실제 신뢰성 보장에 미치는 역할을 알아보세요.

머신 러닝에서 테스트 데이터는 완전히 학습되고 조정된 후 모델의 최종 모델을 완전히 학습하고 튜닝한 후 최종 평가에 사용되는 데이터 세트의 독립적인 부분입니다. 이 데이터 세트는 모델에 대한 '최종 시험' 역할을 합니다. 모델에 대한 "최종 시험" 역할을 하며, 보이지 않는 새로운 데이터에 대한 성능에 대한 편견 없는 평가를 제공합니다. 핵심 원칙은 모델이 을 개발하는 동안 테스트 데이터로부터 학습하거나 영향을 받아서는 안 된다는 것입니다. 이러한 엄격한 분리는 다음을 보장합니다. 테스트 세트에서 계산된 성능 지표(예: 정확도 또는 평균 평균 정밀도(mAP)와 같은 성능 지표가 모델의 진정한 모델의 능력을 반영하여 실제 시나리오로 일반화할 수 있습니다. 엄격한 모델 테스트는 모델 배포 전의 중요한 단계입니다. 모델 배포.

ML 라이프사이클에서 테스트 데이터의 역할

일반적인 머신러닝(ML) 프로젝트에서는 데이터는 다양한 목적에 맞게 세심하게 분할됩니다. 이러한 파티션의 구분을 이해하는 것은 신뢰할 수 있는 모델을 구축하기 위한 기본입니다.

  • 학습 데이터: 이것은 모델을 학습시키는 데 사용되는 가장 큰 데이터의 하위 집합으로, 모델을 학습시키는 데 사용됩니다. 모델은 다음을 통해 패턴, 기능 및 관계를 반복적으로 학습합니다. 내부 모델 가중치를 조정하여 패턴, 기능 및 관계를 반복적으로 학습합니다. 예시를 기반으로 내부 모델 가중치를 조정하여 반복적으로 학습합니다. 효과적인 모델 생성을 위해서는 고품질의 학습 데이터와 다음과 같은 모범 사례를 모범 사례를 따르는 것이 중요합니다. 모델 트레이닝 팁 가이드와 같은 모범 사례를 따르는 것입니다.
  • 유효성 검사 데이터: 이것은 학습 과정에 사용되는 훈련 과정에서 사용되는 별도의 데이터 세트입니다. 이 데이터의 목적은 보이지 않는 데이터에 대한 모델의 보이지 않는 데이터에 대한 성능에 대한 피드백을 제공하는 것입니다. 하이퍼파라미터 튜닝 (예: 학습 속도 조정) 및 학습률 조정) 및 과적합 방지 과적합. 학습 전략을 안내하는 데 도움이 되는 학습 전략을 안내합니다. 평가는 종종 전용 검증 모드를 사용하여 수행됩니다.
  • 테스트 데이터: 이 데이터 세트는 모든 훈련과 검증이 완료될 때까지 완전히 격리된 상태로 유지됩니다. 모델 성능에 대한 편향되지 않은 최종 보고서를 제공하기 위해 단 한 번만 사용됩니다. 테스트 데이터를 사용하여 모델을 모델을 추가로 조정하면 결과가 무효화되며, 이러한 실수를 때때로 "데이터 유출" 또는 "테스트에 대한 테스트"라고도 합니다. 이 최종 평가는 다음과 같은 모델을 이해하는 데 필수적입니다. Ultralytics YOLO11 모델과 같은 모델이 배포 후 어떻게 작동하는지 이해하는 데 필수적입니다.

교육 후에는 val 모드를 사용하여 테스트 분할에서 최종 성능 지표를 생성합니다.

from ultralytics import YOLO

# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")

# Evaluate the model's performance on the COCO8 test set.
# This command runs a final, unbiased evaluation on the 'test' split.
metrics = model.val(data="coco8.yaml", split="test")
print(metrics.box.map)  # Print mAP score

벤치마크 데이터 세트는 테스트 세트의 역할을 할 수도 있지만, 주요 역할은 학문적 과제에서 종종 사용되는 다양한 모델을 비교하기 위한 공개 표준 역할을 하는 것입니다. 와 같은 ImageNet 대규모 시각 인식 챌린지(ILSVRC)와 같은 학술적 과제에 사용됩니다. You 모델 비교 페이지에서 이에 대한 예를 볼 수 있습니다.

실제 애플리케이션

  1. 자동차 분야의 AI: 개발자가 자동차를 위한 자율 주행 차량의 물체 감지 모델을 수천 시간의 주행 영상을 수천 시간의 주행 영상을 사용하여 자율 주행 차량용 물체 감지 모델을 만듭니다. 이 모델을 차량에 배포하기 전에 테스트 데이터 세트에 대해 테스트 데이터 세트. 이 테스트 세트에는 폭우가 쏟아지는 야간 주행, 폭설 속 주행, 눈길 주행 등 이전에는 볼 수 없었던 폭우 속 야간 운전, 눈보라를 헤쳐나가는 상황, 다른 물체에 가려진 보행자를 감지하는 상황 등 이전에는 볼 수 없었던 까다로운 시나리오가 포함됩니다. 이 테스트 세트에서 모델의 이 테스트 세트의 성능은 종종 다음과 같은 벤치마크의 데이터를 사용합니다. 같은 벤치마크의 데이터를 사용하여 이 테스트 세트에서 모델의 성능이 엄격한 엄격한 안전 및 신뢰성 표준을 충족하는지 자동차 애플리케이션의 AI.
  2. 의료 이미지 분석: A 컴퓨터 비전(CV) 모델은 다음과 같이 훈련됩니다. 한 병원에서 제공한 흉부 엑스레이 이미지에서 폐렴의 징후를 detect . 이 모델이 임상적으로 유용한지 확인하려면 모델을 다른 병원 시스템의 이미지 데이터 세트에서 테스트해야 합니다. 이 테스트 데이터에는 서로 다른 장비로 캡처한 이미지 다양한 환자 집단에서 다양한 장비로 촬영하고 다양한 영상의학과 전문의가 해석한 이미지가 포함됩니다. 이 외부 테스트 세트에서 모델의 성능을 평가하는 것은 다음과 같은 규제 승인을 획득하는 데 매우 중요합니다. FDA와 같은 FDA 등의 규제 승인을 획득하고 의료 분야의 AI. 이 프로세스는 다음과 같은 이점을 제공합니다. 모델이 데이터 세트 편향을 피하고 새로운 임상 환경에서 안정적으로 작동하도록 보장합니다. 다음과 같은 리소스에서 공개 의료 영상 데이터세트를 찾을 수 있습니다. 암 영상 아카이브(TCIA).

테스트 데이터 관리를 위한 모범 사례

평가의 무결성을 보장하려면 다음 모범 사례를 고려하세요:

  • 무작위 샘플링: 데이터 분할을 만들 때 테스트 세트가 전체 문제 공간의 대표 샘플인지 확인하세요. 다음과 같은 도구 scikit-learn의 train_test_split 과 같은 도구를 사용하면 이러한 무작위 분할을 자동화할 수 있습니다.
  • 데이터 유출 방지: 훈련 세트와 테스트 세트 사이에 중복이 없는지 확인하세요. 미묘한 누수조차도 같은 비디오 클립의 프레임이 두 세트에 모두 포함되어 있으면 성능 점수가 인위적으로 부풀려질 수 있습니다.
  • 대표 배포: 다음과 같은 작업의 경우 분류와 같은 작업의 경우, 테스트 집합의 클래스 분포가 테스트 세트의 클래스 분포가 예상되는 실제 분포와 일치하는지 확인하세요.
  • 평가 지표: 비즈니스 목표에 부합하는 지표를 선택하세요. 예를 들어, 보안 애플리케이션에서는 위협을 놓치지 않도록 하기 위해 위협을 놓치지 않기 위한 정확도보다 더 중요할 수 있습니다.

이러한 원칙을 엄격하게 준수하면 테스트 데이터를 사용하여 다음과 같은 사실을 자신 있게 인증할 수 있습니다. Ultralytics 모델이 프로덕션 환경에 사용할 준비가 되었음을 인증할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기