데이터 전처리
머신러닝을 위한 마스터 데이터 전처리. 모델 정확도와 성능을 향상시키기 위해 클리닝, 스케일링, 인코딩과 같은 기술을 배우십시오.
데이터 전처리는 머신 러닝 파이프라인의 중요한 초기 단계로, 원시 데이터를 알고리즘에 적합한
알고리즘을 위한 깔끔하고 이해하기 쉬운 형식으로 변환하는 중요한 초기 단계입니다. 실제 데이터는 불완전하고 일관성이 없으며 오류나 이상값으로 가득 차 있는 경우가 많습니다.
오류 또는 이상값으로 가득 차 있습니다. 이러한 결함이 있는 입력으로 모델을 학습시키면 결과적으로
예측 모델링은
부정확한 결과를 도출할 가능성이 높으며, 이러한 현상을 흔히 "가비지 인, 가비지 아웃"이라고 합니다. 이러한 문제를 체계적으로
전처리를 통해 이러한 문제를 체계적으로 해결하면 다음과 같은 이점을 얻을 수 있습니다.
학습 데이터의 품질이 높으며, 이는 최적의 모델 정확도를 달성하고
최적의 모델 정확도와 안정성을 달성하는 데 필수적입니다.
전처리의 핵심 기술
전처리와 관련된 구체적인 단계는 텍스트, 이미지, 표 형식의 데이터 등 데이터 유형에 따라 다르지만
일반적으로 몇 가지 기본 작업이 포함됩니다.
-
데이터 정리: 여기에는 다음이 포함됩니다.
누락된 값을 처리하고, 노이즈가 있는 데이터를 수정하고, 불일치를 해결하는 작업이 포함됩니다. 여기에는 통계적 방법으로 누락된 항목을
통계적 수단을 사용하여 누락된 항목을 추론하거나 다음과 같은 도구를 사용하여 손상된 레코드를 완전히 제거합니다.
Pandas.
-
정규화 및 스케일링:
알고리즘은 피처의 스케일이 크게 다른 경우(예: 나이 대 소득) 성능이 저하되는 경우가 많습니다. 정규화
는 숫자 열을 0에서 1과 같은 일반적인 척도로 조정하여 더 큰 값이 경사 하강 프로세스를
그래디언트 하강 프로세스를 지배하지 않도록 합니다. 자세한 내용은
스케일링 전략에 대한 자세한 내용은
Scikit 학습 문서를 참조하세요.
-
인코딩: 머신 러닝 모델에는 일반적으로 숫자 입력이 필요합니다. 범주형 데이터(예
"빨강", "초록", "파랑")은 다음과 같은 방법을 사용하여 숫자로 변환해야 합니다.
원핫 인코딩 또는 레이블
인코딩과 같은 방법을 사용하여 숫자로 변환해야 합니다.
-
차원 감소: 다음과 같은 기법
주성분 분석(PCA)
같은 기술은 입력 변수의 수를 줄여 가장 필수적인 정보만 유지하여
과적합을 방지하고 학습 속도를 높입니다.
-
이미지 크기 조정: 컴퓨터 비전
컴퓨터 비전(CV)에서는 종종 이미지 크기를
고정된 크기(예: 640x640픽셀)로 조정하여 입력 레이어와 일치하도록 해야 하는 경우가 많습니다.
컨볼루션 신경망(CNN).
실제 애플리케이션
데이터 전처리는 산업 전반에 걸쳐 보편화되어 있으며 안정적인 AI 시스템의 중추적인 역할을 합니다.
-
의료 이미지 분석:
MRI 또는 CT 스캔에서 이상 징후를 감지할 때는 전처리가 필수적입니다. 원시 스캔은 사용하는 기계에 따라 대비와 해상도가
대비와 해상도가 다양합니다. 전처리는 픽셀 강도를 정규화하고 이미지 크기를 조정하여 다음과 같이 보장합니다.
AI 에이전트가 병리학적 특징에 초점을 맞추도록 합니다.
병리학적 특징에 집중할 수 있도록 합니다. 예를 들어, 연구자들이 어떻게
종양 탐지에 YOLO11 사용하여
진단 정확도를 향상시키는 방법을 살펴보세요.
-
금융 사기 탐지: 은행 부문에서는 거래 로그가 지저분하고 불균형한 경우가 많습니다.
전처리에는 타임스탬프 오류를 정리하고 거래 금액을 정규화하는 작업이 포함됩니다. 결정적으로, 전처리에는 다음과 같은 작업도 포함됩니다.
사기는 드물기 때문에 샘플링 기법을 사용하여 데이터 세트의 균형을 맞추는 것도 포함됩니다.
이상 징후 탐지 모델이 의심스러운 활동을 효과적으로 식별할 수 있도록
의심스러운 활동. IBM은 데이터 준비가 이러한 비즈니스 크리티컬 분석을 지원하는 방법에 대한 인사이트를
이러한 비즈니스 크리티컬 분석을 지원하는 방법에 대한 인사이트를 제공합니다.
Ultralytics YOLO 사용한 전처리
최신 프레임워크는 전처리 파이프라인의 상당 부분을 자동화하는 경우가 많습니다. 사용 시
YOLO11를 사용하면 이미지 크기 조정, 픽셀 값 크기 조정, 레이블 서식 지정 등의 작업이
트레이닝 과정에서 내부적으로 처리됩니다. 따라서 개발자는 다음과 같은 더 높은 수준의 작업에 집중할 수 있습니다.
모델 평가 및 배포.
다음 예는 YOLO11 이미지 크기 조정을 자동으로 처리하는 방법을 보여줍니다. imgsz 인수
를 입력합니다:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)
관련 개념 차별화
머신 러닝 워크플로우에서 데이터 전처리와 유사한 용어를 구분하는 것이 도움이 됩니다:
-
데이터 증강 비교: 전처리가 데이터를 사용할 수 있도록
전처리가 데이터를 사용할 수 있도록 포맷을 지정(예: 크기 조정)하는 반면, 증강은 기존 데이터의 다양성을 높이기 위해
기존 데이터의 새로운 합성 변형(예: 회전, 뒤집기)을 생성하여 데이터 집합의 다양성을 높이고
견고성을 높입니다. 자세한 내용은
데이터 증강 가이드에서 자세히 알아보세요.
-
기능 엔지니어링:
전처리는 원시 데이터를 정리하고 서식을 지정하는 데 중점을 둡니다. 피처 엔지니어링은 보다 창의적인 단계로, 다음과 같은 작업이 포함됩니다.
해당 데이터에서 새롭고 의미 있는 변수를 도출하여(예: '가격'과 '면적'에서 '평방 피트당 가격' 계산
"가격" 및 "면적"에서 "평방피트당 가격" 계산 등)을 도출하여
모델 성능을 개선합니다.
-
데이터 라벨링 비교: 라벨링은
데이터에 주석을 추가하는 수동 또는 자동화된 프로세스입니다.
바운딩 박스 그리기 등)에 주석을 달아 기준 정보를 생성하는 수동 또는 자동 프로세스입니다.
전처리는 이러한 라벨링된 이미지와 주석을 신경망에 사용할 수 있도록
신경망.
엔지니어는 데이터 전처리를 마스터함으로써 성공적인 AI 프로젝트를 위한 토대를 마련하고
성공적인 AI 프로젝트의 토대를 마련하고, 정교한
정교한 YOLO11 및 곧 출시될 YOLO26과 같은 정교한 모델이 잠재력을 최대한 발휘할 수 있도록 지원합니다. 대상
데이터 세트 관리 및 이러한 워크플로우 자동화를 위해
Ultralytics 플랫폼은 통합 환경을 제공하여 원시 데이터에서 배포된 모델에 이르는
원시 데이터에서 배포된 모델로의 여정을 간소화하는 통합 환경을 제공합니다.