Yolo 비전 선전
선전
지금 참여하기
용어집

교차 검증

머신 러닝에서 교차 검증의 힘을 발견하여 모델 정확도를 높이고 과적합을 방지하며 강력한 성능을 보장하십시오.

교차 검증은 머신러닝(ML)에서 사용되는 강력한 통계 방법으로 머신 러닝(ML)에서 사용되는 강력한 통계 방법으로 모델의 성능을 평가하고 모델이 독립적인 데이터 세트에 얼마나 잘 일반화되는지 평가하는 데 사용되는 강력한 통계 방법입니다. 표준 평가와 달리 방법과 달리 교차 검증은 데이터를 하위 집합으로 분할하고, 일부 하위 집합에서 모델을 훈련한 다음 일부 하위 집합에서 모델을 훈련하고 다른 하위 집합에서 모델을 검증합니다. 이 반복적인 프로세스는 모델이 다음과 같은 문제를 겪고 있는지 식별하는 데 도움이 됩니다. 과적합 여부를 식별하여 모델이 학습한 패턴을 학습 데이터의 노이즈를 암기하는 것이 아니라 보이지 않는 새로운 데이터에 적용할 수 있습니다. 학습 데이터.

K-Fold 교차 유효성 검사의 작동 방식

이 기법의 가장 널리 사용되는 변형은 K-Fold 교차 검증입니다. 이 방법은 전체 데이터 집합을 동일한 크기의 세그먼트 또는 "폴드"로 나눕니다. 그런 다음 훈련 및 평가 프로세스를 k 번 반복합니다. 각 반복 동안 특정 폴드가 테스트를 위한 테스트용 유효성 검사 데이터로, 나머지 k-1 개의 폴드는 훈련에 사용됩니다.

  1. 파티셔닝: 데이터 집합을 무작위로 섞어 k개의 그룹으로 분할합니다.
  2. 반복: 각 고유 그룹에 대해 다른 그룹을 사용하여 모델을 처음부터 학습합니다.
  3. 평가: 모델의 성능은 다음과 같은 메트릭을 사용하여 보류된 그룹에 대해 테스트됩니다. 정확도 또는 평균 평균 정밀도(mAP).
  4. 집계: 모든 k 루프의 점수를 평균하여 신뢰할 수 있는 단일의 성능 추정치를 생성합니다.

이 접근 방식은 모든 데이터 포인트가 학습과 검증에 정확히 한 번만 사용되도록 하여 모델의 일반화 오류를 덜 추정할 수 있습니다.

유효성 검사 세트와 교차 유효성 검사 구분하기

표준 유효성 검사 분할과 교차 유효성 검사를 구분하는 것이 중요합니다. 기존 워크플로에서는 데이터는 정적으로 학습, 유효성 검사 및 테스트 데이터로 나뉩니다. 이 단일 분할은 계산적으로는 더 저렴하지만 분할은 선택한 유효성 검사 집합이 비정상적으로 쉽거나 어려운 경우 오해의 소지가 있을 수 있습니다.

교차 검증은 여러 스플릿에 걸쳐 성능을 평균화하여 이러한 위험을 완화하므로 모델 선택에 선호되는 방법입니다. 모델 선택하이퍼파라미터 튜닝, 특히 사용 가능한 데이터 세트가 특히 사용 가능한 데이터 세트가 적은 경우에 선호되는 방법입니다. 다음과 같은 프레임워크는 Scikit-Learn과 같은 프레임워크는 포괄적인 교차 검증 도구를 제공하지만 을 제공하지만, 딥러닝 워크플로에서는 이러한 루프를 수동으로 또는 특정 데이터 세트 구성을 통해 구현하는 경우가 많습니다.

from ultralytics import YOLO

# Example: Iterating through pre-prepared K-Fold dataset YAML files
# A fresh model is initialized for each fold to ensure independence
yaml_files = ["fold1.yaml", "fold2.yaml", "fold3.yaml", "fold4.yaml", "fold5.yaml"]

for k, yaml_path in enumerate(yaml_files):
    model = YOLO("yolo11n.pt")  # Load a fresh YOLO11 model
    results = model.train(data=yaml_path, epochs=50, project="kfold_demo", name=f"fold_{k}")

실제 애플리케이션

교차 검증은 신뢰성이 타협할 수 없고 데이터 부족이 문제인 산업에서 매우 중요합니다.

  • 의료 영상: In 의료 영상 분석에서 희귀 질환에 대한 데이터 세트는 조건에 대한 데이터 세트는 종종 제한적입니다. 뇌종양 데이터 세트에서 이상 징후를 식별하기 위해 모델을 훈련할 때 뇌종양 데이터 세트에서 이상 징후를 식별하기 위해 모델을 훈련할 때, 연구자들은 교차 검증을 통해 알고리즘이 다양한 환자 인구 통계에서 일관되게 작동하는지 확인합니다. 이 엄격한 테스트는 종종 진단 도구가 견고하고 특정 이미지 하위 집합에 편향되지 않았음을 입증하여 AI 의료 기기에 대한 FDA 규제 승인을 받기 위한 요건입니다.
  • 자율 주행: 안전한 자율주행차 개발 안전한 자율 주행 차량 개발에는 다양한 환경에서 올바르게 작동하는 물체 감지 시스템 물체 감지 시스템이 필요합니다. 엔지니어가 사용하는 Ultralytics YOLO11 을 사용하여 보행자 또는 교통 표지판 detect 와 같은 데이터 세트에 교차 검증을 사용할 수 있습니다. Argoverse. 서로 다른 기상 조건이나 조명 시나리오를 포함하는 여러 폴드에 걸쳐 다양한 기상 조건이나 조명 시나리오를 포함하는 여러 폴드에 걸쳐 검증함으로써 개발자는 실제 세계에서 높은 안전 기준을 유지하는 실제 환경에서 높은 안전 기준을 유지할 수 있습니다.

모델 개발의 전략적 이점

교차 검증을 구현하면 다음과 같은 상당한 이점이 있습니다. 이점을 제공합니다. 다음과 같은 이점이 있습니다. 학습 속도와 기타 설정을 모델을 단일 유효성 검사 세트에 맞출 필요 없이 다른 설정을 보다 공격적으로 최적화할 수 있습니다. 또한, 다음과 같은 탐색에도 도움이 됩니다. 편향성-편차 트레이드오프를 탐색하는 데 도움이 됩니다. 엔지니어는 모델이 데이터 패턴을 캡처할 수 있을 만큼 복잡하지만 새로운 입력에 대해 충분히 단순하면서도 새로운 입력에 효과적입니다.

실제 구현에 대한 자세한 내용은 다음 가이드를 참조하세요. Ultralytics 사용한 K-배열 교차 검증, 에서 효율성을 극대화하기 위해 데이터 세트와 트레이닝 루프를 구성하는 방법을 자세히 설명합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기