YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

데이터 전처리

머신러닝을 위한 마스터 데이터 전처리. 모델 정확도와 성능을 향상시키기 위해 클리닝, 스케일링, 인코딩과 같은 기술을 배우십시오.

데이터 전처리(preprocessing)는 원시 데이터를 정리, 변환 및 구성하여 모델 훈련 및 구축에 적합하게 만드는 머신러닝(ML) 파이프라인의 중요한 단계입니다. 실제 세계의 원시 데이터는 종종 불완전하고 일관성이 없으며 오류를 포함할 수 있습니다. 전처리(preprocessing)는 이러한 불완전한 데이터를 정리되고 잘 구성된 형식으로 변환하며, 이는 모델이 효과적으로 학습하는 데 필수적입니다. 모델 예측의 품질은 훈련된 데이터의 품질에 크게 좌우되므로 데이터 전처리(preprocessing)는 AI 시스템에서 높은 정확도와 안정적인 성능을 달성하기 위한 기본적인 방법입니다.

데이터 전처리 주요 과제

데이터 전처리(preprocessing)는 데이터를 준비하기 위한 다양한 기술을 포괄하는 광범위한 용어입니다. 구체적인 단계는 데이터 세트와 ML 작업에 따라 다르지만, 일반적인 작업은 다음과 같습니다.

  • 데이터 정리: 이는 데이터 세트에서 오류, 불일치 및 누락된 값을 식별하고 수정하거나 제거하는 프로세스입니다. 여기에는 통계적 방법을 사용하여 누락된 데이터를 채우거나 중복 항목을 제거하는 것이 포함될 수 있습니다. 정리된 데이터는 모든 신뢰할 수 있는 모델의 초석입니다.
  • 데이터 변환: 이는 데이터의 스케일 또는 분포를 변경하는 것을 포함합니다. 일반적인 기술은 수치형 특징의 스케일을 표준 범위(예: 0~1)로 조정하여 스케일이 더 큰 특징이 학습 프로세스를 지배하지 않도록 하는 정규화입니다. 다양한 스케일링 방법에 대한 자세한 내용은 scikit-learn 전처리 문서에서 확인할 수 있습니다.
  • Feature Engineering: 이는 모델 성능을 향상시키기 위해 기존 기능에서 새로운 기능을 생성하는 창의적인 프로세스입니다. 여기에는 기능 결합, 기능 분해 또는 도메인 지식을 사용하여 더 의미 있는 정보를 추출하는 것이 포함될 수 있습니다. 관련 개념은 데이터의 차원을 자동으로 줄이는 특성 추출입니다.
  • 범주형 데이터 인코딩: 많은 ML 알고리즘은 숫자 입력을 필요로 합니다. 전처리에는 종종 원-핫 인코딩과 같은 기술을 통해 범주형 데이터(예: 텍스트 레이블)를 숫자 형식으로 변환하는 작업이 포함됩니다.
  • 크기 조정 및 증강: 컴퓨터 비전(CV)에서 전처리에는 이미지를 균일한 크기로 조정하는 것이 포함됩니다. 또한 이미지의 수정된 버전을 생성하여 데이터 세트를 인위적으로 확장하는 데이터 증강이 뒤따를 수도 있습니다.

실제 AI/ML 애플리케이션

데이터 전처리(preprocessing)는 모든 AI 도메인에서 보편적인 요구 사항입니다. 그 적용은 단순하고 복잡한 작업 모두에서 성공에 매우 중요합니다.

  1. 의료 영상 분석: 뇌종양 데이터 세트와 같은 데이터 세트에서 MRI 스캔의 종양을 감지하도록 YOLO 모델을 학습하기 전에 이미지를 전처리해야 합니다. 여기에는 스캔 장비의 차이를 설명하기 위해 픽셀 강도 값을 정규화하고, 모델의 백본에 필요한 일관된 입력 크기로 모든 이미지 크기를 조정하고, 손상된 파일 또는 잘못 레이블이 지정된 예를 제거하기 위해 데이터 세트를 정리하는 작업이 포함됩니다. 이를 통해 컨볼루션 신경망(CNN)은 이미징의 변화가 아닌 모델의 실제 병리학적 특징을 학습할 수 있습니다. 종양 감지에 YOLO 사용에 대한 블로그에서 이에 대한 자세한 내용을 볼 수 있습니다.
  2. AI 기반 소매 예측: 소매 분야에서 고객 수요를 예측하는 모델의 경우, 원시 판매 데이터에는 누락된 거래 기록, 일관성 없는 제품 이름, 그리고 매우 다른 척도를 가진 특징(예: '품목 가격' 대 '판매된 품목 수')이 포함되는 경우가 많습니다. 여기서 전처리 과정은 누락된 판매 수치를 보정하고, 제품 이름을 표준화하며, 수치형 특징을 정규화하여 예측 모델링 알고리즘이 각 요인의 중요도를 효과적으로 평가할 수 있도록 합니다. 비즈니스용 전처리 개요에서 이러한 단계를 자세히 설명합니다.

데이터 전처리 vs. 관련 개념

데이터 전처리(data preprocessing)를 다른 관련 데이터 관리 용어와 구별하는 것이 유용합니다.

  • 데이터 정리: 언급했듯이 데이터 정리는 데이터 전처리의 하위 집합입니다. 전처리는 모델을 위해 데이터를 준비하는 전체 프로세스인 반면, 정리는 특히 오류를 수정하고, 누락된 값을 처리하고, 원시 데이터 세트 내의 불일치를 제거하는 데 중점을 둡니다.
  • 데이터 증강: 데이터 증강은 학습 데이터의 크기를 인위적으로 늘리는 데 사용되는 기술입니다. 이는 학습을 위해 데이터를 준비하는 과정의 일부이지만 일반적으로 원본 데이터 세트에서 정리 및 크기 조정과 같은 초기 전처리 단계가 이미 완료된 에 적용됩니다. 증강의 목표는 모델 일반화를 개선하는 반면, 전처리는 원본 데이터를 사용 가능하게 만드는 것을 목표로 합니다.
  • 데이터 분석: 데이터 분석은 결론을 도출하고 의사 결정을 지원하기 위해 데이터 세트를 검사하는 훨씬 더 광범위한 분야입니다. 데이터 전처리는 데이터 분석 워크플로 의 기본적인 첫 번째 단계이며, 여기에는 탐색적 데이터 분석(EDA), 모델링 및 데이터 시각화도 포함됩니다.

Ultralytics HUB와 같은 플랫폼은 데이터 세트를 관리하고 데이터 준비부터 모델 배포에 이르기까지 ML 라이프사이클을 간소화하는 데 도움이 될 수 있습니다. 주석이 달린 데이터 전처리에 대한 가이드는 추가적인 실질적인 통찰력을 제공합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.