용어집

데이터 전처리

머신러닝을 위한 마스터 데이터 전처리. 모델 정확도와 성능을 높이기 위한 정리, 확장 및 인코딩과 같은 기술을 학습하세요.

데이터 전처리는 머신 러닝(ML) 파이프라인에서 중요한 단계로, 원시 데이터를 학습 및 모델 구축에 적합하도록 정리, 변환, 구성하는 작업을 포함합니다. 현실 세계의 원시 데이터는 종종 불완전하고 일관성이 없으며 오류가 있을 수 있습니다. 사전 처리는 이러한 지저분한 데이터를 깨끗하고 구조화된 형식으로 변환하며, 이는 모델이 효과적으로 학습하는 데 필수적입니다. 모델의 예측 품질은 학습되는 데이터의 품질에 따라 크게 좌우되므로 데이터 전처리는 AI 시스템에서 높은 정확도와 안정적인 성능을 달성하기 위한 기본 관행입니다.

데이터 전처리의 주요 작업

데이터 전처리는 데이터를 준비하는 다양한 기술을 포괄하는 광범위한 용어입니다. 구체적인 단계는 데이터 세트와 ML 작업에 따라 다르지만 일반적인 작업은 다음과 같습니다:

  • 데이터 정리: 데이터 정리: 데이터 세트에서 오류, 불일치, 누락된 값을 식별하고 수정하거나 제거하는 프로세스입니다. 여기에는 통계적 방법을 사용하여 누락된 데이터를 채우거나 중복된 항목을 제거하는 작업이 포함될 수 있습니다. 깨끗한 데이터는 신뢰할 수 있는 모델의 초석입니다.
  • 데이터 변환: 여기에는 데이터의 규모나 분포를 변경하는 것이 포함됩니다. 일반적인 기술은 정규화를 사용하여 수치 특징을 표준 범위(예: 0~1)로 스케일링하여 스케일이 큰 특징이 학습 과정을 지배하는 것을 방지합니다. 다양한 스케일링 방법에 대한 자세한 내용은 scikit-learn 전처리 문서에서 확인할 수 있습니다.
  • 피처 엔지니어링: 피처 엔지니어링은 모델 성능을 개선하기 위해 기존 피처에서 새로운 피처를 만드는 창의적인 프로세스입니다. 여기에는 피처를 결합하거나, 분해하거나, 도메인 지식을 사용하여 더 의미 있는 정보를 추출하는 것이 포함될 수 있습니다. 관련 개념은 다음과 같습니다. 특징 추출이 있으며, 이는 데이터의 차원을 자동으로 줄여줍니다.
  • 범주형 데이터 인코딩: 많은 ML 알고리즘은 숫자 입력을 필요로 합니다. 전처리에는 종종 원핫 인코딩과 같은 기술을 통해 텍스트 레이블과 같은 범주형 데이터를 숫자 형식으로 변환하는 작업이 포함됩니다.
  • 크기 조정 및 확대: 컴퓨터 비전(CV)에서 사전 처리에는 이미지 크기를 균일한 크기로 조정하는 작업이 포함됩니다. 그 다음에는 데이터 증강를 통해 이미지의 수정된 버전을 생성하여 데이터 세트를 인위적으로 확장할 수도 있습니다.

실제 AI/ML 애플리케이션

데이터 전처리는 모든 AI 영역에서 보편적으로 요구되는 사항입니다. 단순한 작업과 복잡한 작업 모두에서 성공하려면 데이터 전처리를 적용하는 것이 중요합니다.

  1. 의료 이미지 분석: 뇌종양 데이터 세트와 같은 데이터 세트에서 MRI 스캔의 종양을 감지하도록 YOLO 모델을 학습시키려면 먼저 이미지를 전처리해야 합니다. 여기에는 스캔 장비의 차이를 고려하여 픽셀 강도 값을 정규화하고, 모든 이미지의 크기를 모델의 백본에 필요한 일관된 입력 크기로 조정하고, 손상된 파일이나 라벨이 잘못 지정된 예시를 제거하기 위해 데이터 세트를 정리하는 작업이 포함됩니다. 이렇게 하면 컨볼루션 신경망(CNN) 이 이미지의 변형이 아닌 모델의 실제 병리학적 특징을 학습할 수 있습니다. 이에 대한 자세한 내용은 종양 탐지에 YOLO 활용에 관한 블로그에서 확인할 수 있습니다.
  2. AI 기반 소매업 예측: 소매업에서 고객 수요를 예측하는 모델의 경우, 원시 판매 데이터에는 누락된 거래 기록, 일관되지 않은 제품 이름, 매우 다른 척도(예: '품목 가격' 대 '판매 품목 수')의 특징이 포함되어 있는 경우가 많습니다. 여기서 사전 처리에는 예측 모델링 알고리즘이 각 요소의 중요도를 효과적으로 평가할 수 있도록 누락된 판매 수치를 대입하고, 제품 이름을 표준화하고, 숫자 피처를 정규화하는 작업이 포함됩니다. 비즈니스 전처리에 대한 개요에서는 이러한 단계를 강조합니다.

데이터 전처리와 관련 개념 비교

데이터 전처리를 다른 관련 데이터 관리 용어와 구분하는 것이 도움이 됩니다.

  • 데이터 정리: 앞서 언급했듯이 데이터 정리는 데이터 전처리의 하위 집합입니다. 전처리가 모델에 사용할 데이터를 준비하는 전체 프로세스인 반면, 정리는 특히 오류 수정, 누락된 값 처리, 원시 데이터 집합 내의 불일치 제거에 중점을 둡니다.
  • 데이터 증강: 데이터 증강은 학습 데이터의 크기를 인위적으로 늘리는 데 사용되는 기법입니다. 학습을 위한 데이터 준비의 일부이지만, 일반적으로 원본 데이터 세트에서 정리 및 크기 조정과 같은 초기 전처리 단계가 이미 완료된 후에 적용됩니다. 증강의 목표는 모델 일반화를 개선하는 것이지만, 전처리는 원본 데이터를 사용할 수 있게 만드는 것이 목표입니다.
  • 데이터 분석: 데이터 분석은 결론을 도출하고 의사 결정을 지원하기 위해 데이터 세트를 조사하는 훨씬 더 광범위한 분야입니다. 데이터 전처리는 데이터 분석 워크플로우의 기본적인 첫 번째 단계이며, 여기에는 탐색적 데이터 분석(EDA), 모델링 및 데이터 시각화도 포함됩니다.

데이터 준비부터 모델 배포까지, 데이터 집합을 관리하고 ML 수명 주기를 간소화하는 데 도움을 주는 플랫폼이 바로 Ultralytics HUB입니다. 주석이 달린 데이터 전처리에 대한 가이드는 더 실용적인 인사이트를 제공합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨