Yolo 비전 선전
선전
지금 참여하기
용어집

검증 데이터

유효성 검사 데이터로 머신 러닝 모델을 최적화하여 과적합을 방지하고, 하이퍼파라미터를 조정하고, 강력한 실제 성능을 보장하세요.

유효성 검사 데이터는 머신러닝 개발 수명 주기에서 중요한 중간 단계로, 모델 학습 과정에서 보이지 않는 데이터에 대한 모델 학습 과정에서 보이지 않는 데이터의 프록시 역할을 합니다. 검증 데이터는 데이터 세트의 고유한 하위 집합으로, 모델의 적합도를 조정하는 동안 모델 구성을 조정하는 동안 모델의 적합성을 편견 없이 평가하는 데 사용되는 데이터 세트의 하위 집합입니다. 주기적으로 모델을 검증 데이터에 대해 테스트함으로써 검증 데이터에 대해 주기적으로 모델을 테스트함으로써 개발자는 시스템이 얼마나 잘 학습하고 있는지 평가할 수 있습니다. 새로운 정보에 대한 일반화 평가할 수 있습니다. 이러한 피드백 루프는 문제를 조기에 파악하고 모델을 최적화하는 데 필수적입니다. 모델을 최적화하는 데 필수적입니다.

모델 튜닝에서 유효성 검사의 역할

유효성 검사 데이터의 주요 기능은 다음과 같습니다. 하이퍼파라미터 튜닝을 용이하게 하는 것입니다. 모델 가중치와 같은 내부 모델 가중치와 같은 내부 파라미터와 달리 학습되는 모델 가중치와 같은 내부 파라미터와 달리, 하이퍼파라미터는 학습률 또는 배치 크기와같은 하이퍼파라미터는 수동으로 설정하거나 실험을 통해 최적화해야 합니다. 엔지니어는 검증 세트를 통해 다양한 모델 아키텍처와 구성을 비교하여 다음을 수행할 수 있습니다. 최종 테스트 세트에 손을 대지 않고도 가장 성능이 좋은 것을 선택할 수 있습니다.

또한 유효성 검사 데이터의 성능을 모니터링하면 과적합을 방지합니다. 과적합은 모델이 학습 데이터의 노이즈와 특정 세부 사항을 학습할 때 발생합니다. 훈련 데이터의 노이즈와 특정 세부 사항을 학습하여 새로운 데이터에 대한 성능을 저하시킬 때 발생합니다. 학습 오류 은 감소하지만 유효성 검사 오류가 증가하면 모델이 일반화 능력을 상실하고 있음을 나타내며 조기 중단과 같은 개입 기술이 필요하다는 신호입니다.

데이터 분할 구분하기

신뢰할 수 있는 평가를 위해 전체 데이터 세트는 일반적으로 세 부분으로 나뉩니다. 각 분할의 각 분할의 구체적인 목적을 이해하는 것은 효과적인 데이터 관리를 위해 데이터 관리.

  • 학습 데이터: 신경망을 학습시키는 데 사용되는 가장 큰 하위 집합으로, 신경망을 학습시키는 데 사용됩니다. 모델은 이 데이터를 반복하여 손실 함수를 최소화하도록 매개 변수를 조정합니다. 매개변수를 조정합니다.
  • 유효성 검사 데이터: 교육 중 평가를 위해 엄격하게 사용됩니다. 최상의 모델 체크포인트를 선택하도록 안내하고 모델 체크포인트의 선택을 안내하고 하이퍼파라미터를 조정하는 데 도움이 됩니다. 결정적으로, 모델은 이 데이터에서 직접 '학습'하지 않고 평가에만 사용합니다. 데이터를 직접 '학습'하지 않고 평가에만 사용합니다.
  • 테스트 데이터: 완전히 보류된 최종 모델이 선택될 때만 사용되는 데이터 세트입니다. 모델 배포 전에 정확성과 신뢰성에 대한 편향되지 않은 최종 지표를 제공합니다. 정확성과 신뢰성의 최종 지표를 제공합니다.

Ultralytics 통한 실용적인 구현

Ultralytics 에코시스템에서는 유효성 검사가 워크플로에 원활하게 통합됩니다. 데이터 세트 YAML 구성을 정의할 때 사용자는 트레이닝 및 유효성 검사 이미지의 경로를 지정합니다. 그러면 Ultralytics 유효성 검사 모드를 호출하여 다음과 같은 다음과 같은 메트릭을 계산할 수 있습니다. 평균 평균 정밀도(mAP) 유효성 검사 세트.

다음을 사용하여 사전 학습된 YOLO11 모델의 유효성을 검사하는 방법은 다음과 같습니다. Python:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Validate the model on the 'coco8.yaml' dataset
# The 'data' argument specifies the dataset configuration containing the validation split
metrics = model.val(data="coco8.yaml")

# Display the Mean Average Precision (mAP) at IoU 50-95
print(f"Validation mAP50-95: {metrics.box.map}")

실제 애플리케이션

개발자는 유효성 검사 데이터를 통해 정밀도가 가장 중요한 특정 산업에 맞게 모델을 미세 조정할 수 있습니다.

  • 스마트 농업: In 농업 분야의 AI 모델은 다음과 같이 훈련됩니다. 작물의 질병을 detect 성숙도를 모니터링합니다. 다양한 기상 조건(맑음, 흐림, 비)에서 촬영한 이미지가 포함된 검증 세트를 통해 (맑은 날, 흐린 날, 비가 오는 날)에서 촬영한 이미지가 포함된 검증 세트는 모델이 환경 변화에 대해 견고하게 작동하도록 보장합니다. 튜닝을 통해 데이터 보강 전략을 조정함으로써 검증 피드백을 기반으로 데이터 증강 전략을 조정함으로써 농부들은 예보에 관계없이 신뢰할 수 있는 예측을 얻을 수 있습니다.
  • 의료 진단: 개발 시 의료 분야의 AI를 개발할 때는 편견을 피하는 것이 중요합니다. 스캔 분석과 같은 작업을 위해 의료 분야에서 AI를 개발할 때는 편견을 피하는 것이 중요합니다. 검증 데이터는 한 병원의 데이터로 학습된 모델이 다른 제조업체의 스캐너에도 잘 적용되도록 다른 제조업체의 스캐너에도 잘 일반화되도록 보장하는 데 도움이 됩니다. 이러한 엄격한 검사는 편향성-편차 트레이드오프 함정을 방지하여 환자 안전.

고급 기술: 교차 검증

데이터가 부족한 시나리오에서는 정적 유효성 검사 분할로 인해 중요한 학습 데이터가 너무 많이 제거될 수 있습니다. 이러한 이러한 경우 실무자들은 종종 교차 유효성 검사, 특히 K-Fold 교차 유효성 검사. 이 기법은 데이터를 'K'개의 하위 집합으로 분할하고 어떤 하위 집합이 유효성 검사 데이터로 사용되는지 유효성 검사 데이터로 사용됩니다. 이렇게 하면 모든 데이터 포인트가 학습과 검증 모두에 사용되어 통계적으로 더 강력한 모델 성능 추정치를 제공합니다. scikit-learn 교차 검증 설명서를 참조하세요.

유효성 검사 데이터를 올바르게 사용하는 것은 머신 러닝 작업(MLOps)의 초석입니다. 개발자는 학습 프로세스에서 검증 예제를 엄격하게 분리함으로써 모델이 단순히 사실을 암기하는 것이 아니라 사실을 암기하는 것이 아니라 시각적 세계를 해석하는 방법을 진정으로 학습할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기