YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

데이터 정제

AI 및 ML 프로젝트를 위한 데이터 정리 마스터. 오류를 수정하고, 데이터 품질을 개선하고, 모델 성능을 효과적으로 향상시키는 기술을 배우세요!

데이터 클리닝은 데이터 세트에서 손상되었거나, 부정확하거나, 불완전하거나, 일관성 없는 데이터를 식별하고 수정하거나 제거하는 프로세스입니다. 이는 모든 머신 러닝(ML) 워크플로에서 중요한 첫 번째 단계입니다. 훈련 데이터의 품질이 결과 모델의 성능과 신뢰성을 직접적으로 결정하기 때문입니다. "쓰레기가 들어가면 쓰레기가 나온다"는 원칙에 따라 데이터 클리닝은 Ultralytics YOLO와 같은 모델이 정확하고 일관된 정보로 훈련되도록 보장하여 더 나은 정확도와 더 신뢰할 수 있는 예측으로 이어집니다. 적절한 클리닝 없이는 데이터의 근본적인 문제가 왜곡된 결과와 잘못된 모델 일반화로 이어질 수 있습니다.

주요 데이터 정제 작업

데이터 정리 프로세스에는 다양한 유형의 데이터 품질 문제를 해결하기 위해 설계된 여러 가지 개별 작업이 포함됩니다. 이러한 작업은 종종 반복적이며 도메인별 지식이 필요할 수 있습니다.

  • Handling Missing Values: 데이터 세트에는 종종 누락된 항목이 포함되어 있으며, 불완전한 레코드를 제거하거나 평균, 중앙값 또는 고급 예측 모델과 같은 통계적 방법을 사용하여 누락된 값을 대체(채우기)하여 처리할 수 있습니다. 누락된 데이터 처리에 대한 가이드는 추가적인 통찰력을 제공할 수 있습니다.
  • 부정확한 데이터 수정: 여기에는 오타 수정, 측정 불일치(예: lbs vs. kg) 및 사실적으로 부정확한 정보 수정이 포함됩니다. 데이터 유효성 검사 규칙은 이러한 오류를 표시하기 위해 종종 적용됩니다.
  • 중복 제거: 중복 레코드는 특정 데이터 포인트에 과도한 가중치를 부여하여 모델에 편향을 유발할 수 있습니다. 이러한 중복 항목을 식별하고 제거하는 것은 표준 단계입니다.
  • 이상치 관리: 이상치는 다른 관측값에서 크게 벗어나는 데이터 포인트입니다. 원인에 따라 모델 학습 프로세스에 부정적인 영향을 미치지 않도록 제거, 수정 또는 변환될 수 있습니다. 이를 위해 이상치 탐지 기술이 널리 사용됩니다.
  • 데이터 표준화: 여기에는 데이터가 일관된 형식을 준수하도록 보장하는 것이 포함됩니다. 예로는 날짜 형식 표준화, 텍스트 대소문자 표준화(예: 모든 텍스트를 소문자로 변환), 단위 변환 등이 있습니다. 일관된 데이터 품질 표준은 성공에 매우 중요합니다.

실제 AI/ML 애플리케이션

  1. 의료 영상 분석: 객체 감지 모델을 뇌종양 데이터 세트와 같은 데이터 세트에서 학습할 때 데이터 정리는 매우 중요합니다. 이 프로세스에는 손상되었거나 품질이 낮은 이미지 파일 제거, 모든 이미지를 일관된 해상도 및 형식으로 표준화, 환자 레이블 및 주석의 정확성 확인이 포함됩니다. 이를 통해 모델은 명확하고 신뢰할 수 있는 정보를 학습할 수 있으며, 이는 AI 헬스케어에서 신뢰할 수 있는 진단 도구를 개발하는 데 필수적입니다. 국립 생체 의학 영상 및 생체 공학 연구소(NIBIB)는 의료 연구에서 양질의 데이터의 중요성을 강조합니다.
  2. 소매 재고 관리를 위한 AI: AI 기반 소매에서 컴퓨터 비전 모델은 카메라 피드를 사용하여 선반 재고를 모니터링합니다. 흐릿한 이미지를 필터링하고, 쇼핑객이 제품을 가리는 프레임을 제거하고, 여러 카메라 각도에서 제품 수를 중복 제거하려면 데이터 정리가 필요합니다. 이러한 문제를 해결하면 재고 시스템이 재고 수준을 정확하게 파악하여 더 스마트한 보충이 가능하고 낭비가 줄어듭니다. Google Cloud와 같은 회사는 데이터 품질이 가장 중요한 분석 솔루션을 제공합니다.

데이터 정제 vs. 관련 개념

데이터 클리닝을 관련 데이터 준비 단계와 구별하는 것이 중요합니다.

  • 데이터 전처리: 이는 데이터 정리뿐만 아니라 정규화 (수치형 특징 스케일링), 범주형 변수 인코딩, 특징 추출과 같이 ML 모델을 위해 데이터를 준비하기 위한 다른 변환을 포괄하는 더 광범위한 용어입니다. 정리 작업은 오류 수정에 중점을 두는 반면, 전처리 작업은 알고리즘에 맞게 데이터 형식을 지정하는 데 중점을 둡니다. 자세한 내용은 Ultralytics의 주석이 달린 데이터 전처리 가이드를 참조하십시오.
  • 데이터 레이블링: 이는 지도 학습을 위해 이미지에서 객체 주위에 경계 상자를 그리는 것과 같이 원시 데이터에 유익한 태그 또는 주석(레이블)을 추가하는 프로세스입니다. 데이터 정리에는 품질 검사 중에 식별된 잘못된 레이블을 수정하는 작업이 포함될 수 있지만 레이블링의 초기 행위와는 다릅니다. 데이터 수집 및 주석 가이드는 레이블링에 대한 통찰력을 제공합니다.
  • 데이터 증강: 이 기술은 기존 데이터의 수정된 복사본을 생성하여 학습 데이터 세트의 크기와 다양성을 인위적으로 늘립니다(예: 이미지 회전, 밝기 변경). 데이터 증강은 모델 일반화 및 견고성을 개선하는 것을 목표로 하는 반면, 데이터 정리는 원본 데이터의 품질을 개선하는 데 중점을 둡니다. 데이터 증강에 대한 궁극적인 가이드에서 자세히 알아보세요.

데이터 클리닝은 기본 데이터가 건전한지 확인하여 AI 시스템의 신뢰성과 성능을 크게 향상시키는 기본적이고 종종 반복적인 관행입니다. Pandas 라이브러리와 같은 도구는 Python 기반 ML 워크플로에서 데이터 조작 및 클리닝 작업에 일반적으로 사용됩니다. 엄격한 클리닝을 통해 데이터 품질을 보장하는 것은 특히 복잡한 컴퓨터 비전(CV) 작업이나 COCO 또는 ImageNet과 같은 대규모 벤치마크 데이터 세트로 작업할 때 신뢰할 수 있는 AI를 개발하는 데 매우 중요합니다. Ultralytics HUB와 같은 플랫폼은 프로젝트 수명 주기 전반에 걸쳐 고품질 데이터 세트를 관리하고 유지하는 데 도움이 될 수 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.