용어집

학습 데이터

AI에서 학습 데이터의 중요성에 대해 알아보세요. 양질의 데이터 세트가 실제 작업을 위한 정확하고 강력한 머신 러닝 모델을 어떻게 강화하는지 알아보세요.

학습 데이터는 머신 러닝(ML) 모델에 정확한 예측이나 결정을 내리는 방법을 가르치는 데 사용되는 기본 데이터 세트입니다. 지도 학습에서 이 데이터는 입력 샘플과 그에 해당하는 올바른 출력(종종 레이블 또는 주석이라고 함)이 짝을 이루는 것으로 구성됩니다. 모델은 이러한 예시를 반복적으로 학습하여 내부 모델 가중치를 조정함으로써 예측과 실제 레이블 간의 차이를 최소화합니다. 학습 데이터의 품질, 양, 다양성은 모델의 성능과 보이지 않는 새로운 데이터에 대한 일반화 능력에 영향을 미치는 가장 중요한 요소입니다.

고품질 훈련 데이터의 중요성

'가비지 인, 가비지 아웃'의 원칙은 특히 ML 모델 학습에 적용됩니다. 견고하고 안정적인 시스템을 구축하려면 고품질 데이터가 필수적입니다. 주요 특징은 다음과 같습니다:

  • 관련성: 데이터는 모델이 해결하고자 하는 문제를 정확하게 반영해야 합니다.
  • 다양성: 과적합을 피하기 위해 모델이 실제 세계에서 직면하게 될 다양한 시나리오, 엣지 케이스 및 변형을 포괄해야 합니다.
  • 정확한 라벨링: 주석은 정확하고 일관성이 있어야 합니다. 데이터 라벨링 프로세스는 컴퓨터 비전 프로젝트에서 가장 시간이 많이 걸리는 부분인 경우가 많습니다.
  • 충분한 볼륨: 모델이 의미 있는 패턴을 학습하려면 일반적으로 많은 양의 데이터가 필요합니다. 데이터 증강과 같은 기술은 데이터 집합을 인위적으로 확장하는 데 도움이 될 수 있습니다.
  • 낮은 편향성: 불공정하거나 잘못된 모델 동작으로 이어질 수 있는 데이터 세트 편향성을 방지하기 위해 데이터는 균형 잡히고 대표성을 가져야 합니다. 알고리즘 편향성을 이해하는 것은 책임감 있는 AI 개발의 핵심 요소입니다.

모델 개발 수명 주기 전반에 걸쳐 데이터 세트를 관리할 수 있는 도구를 제공하는 플랫폼으로는 Ultralytics HUB가 있으며, 주석 작업에는 CVAT와 같은 오픈 소스 도구가 널리 사용됩니다.

실제 사례

  1. 자율주행 차량: 자율주행 차량용 물체 감지 모델을 학습시키기 위해 개발자는 카메라와 센서에서 수집한 방대한 양의 학습 데이터를 사용합니다. 이 데이터는 모든 프레임에 세심하게 레이블이 지정된 이미지와 동영상으로 구성됩니다. 보행자, 자전거, 다른 자동차, 교통 표지판은 경계 상자로 둘러싸여 있습니다. 차량의 AI는 Argoverse 또는 nuScenes와 같은 데이터 세트를 학습함으로써 주변 환경을 안전하게 인식하고 탐색하는 방법을 학습합니다.
  2. 의료 이미지 분석: 의료 분야에서 의료 이미지 분석을 위한 학습 데이터는 수천 장의 MRI 또는 CT 스캔으로 구성될 수 있습니다. 방사선 전문의는 이러한 이미지에 주석을 달아 종양, 골절 또는 기타 병리를 강조합니다. Ultralytics YOLO로 구축된 모델과 같은 ML 모델은 뇌종양 데이터 세트에서 이러한 이상 징후를 식별하는 방법을 학습하여 의사가 더 빠르고 정확하게 진단할 수 있도록 지원하는 강력한 도구 역할을 할 수 있습니다. 암 이미징 아카이브(TCIA) 와 같은 리소스는 연구를 위해 이러한 데이터에 대한 공개 액세스를 제공합니다.

학습 데이터와 유효성 검사 및 테스트 데이터 비교

일반적인 ML 프로젝트에서 데이터는 세 가지 다른 집합으로 나뉩니다:

  • 학습 데이터: 매개변수를 조정하여 모델을 학습시키는 데 직접 사용되는 가장 큰 부분입니다. 효과적인 학습을 위해서는 모델 학습을 위한 팁을 신중하게 고려해야 하는 경우가 많습니다.
  • 검증 데이터: 학습 중에 명시적으로 학습하지 않은 데이터에 대한 모델의 성능을 평가하기 위해 주기적으로 사용되는 별도의 하위 집합입니다. 이는 하이퍼파라미터 최적화와 같은 프로세스를 통해 하이퍼파라미터 (예: 학습 속도, 배치 크기)를 조정하는 데 도움이 되며 과적합에 대한 조기 경고를 제공합니다. 이 평가에는 유효성 검사 모드가 사용됩니다.
  • 테스트 데이터: 모델이 완전히 학습된 후에만 사용되는 훈련 및 검증 중에 보이지 않는 독립적인 데이터 세트입니다. 이 데이터는 모델의 일반화 능력과 실제 환경에서 예상되는 성능에 대한 편견 없는 최종 평가를 제공합니다. 배포 전에 엄격한 모델 테스트가 중요합니다.

신뢰할 수 있는 모델을 개발하려면 이러한 데이터 세트를 엄격하게 분리하는 것이 필수적입니다. 최신 모델은 광범위한 학습 데이터로 사용되는 COCO나 ImageNet과 같은 대규모 벤치마크 데이터셋을 통해 사전 학습되는 경우가 많습니다. 더 많은 데이터 세트는 Google 데이터 세트 검색Kaggle 데이터 세트와 같은 플랫폼에서 찾을 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨