데이터 정제
AI 및 ML 프로젝트를 위한 데이터 정리 마스터. 오류를 수정하고, 데이터 품질을 개선하고, 모델 성능을 효과적으로 향상시키는 기술을 배우세요!
데이터 정리는 데이터 세트에서 손상되었거나 부정확하거나 관련 없는 기록을 식별하고 수정하는 중요한 프로세스입니다.
데이터 세트의 품질을 개선하는 중요한 프로세스입니다. 머신 러닝(ML)의 영역에서
머신 러닝(ML)의 영역에서 이 단계는
모든
인공 지능(AI) 모델의 신뢰성은
학습하는 정보의 무결성과 직결되기 때문입니다. "쓰레기가 들어가면 쓰레기가 나온다.
아웃"이라는 격언에 따라 데이터 정리는 다음과 같은 고급 아키텍처를 보장합니다.
Ultralytics YOLO11 와 같은 고급 아키텍처가 일관되고 오류 없는
데이터를 학습할 수 있으며, 이는 실제 환경에서 높은 정확도를 달성하고
실제 환경에서 높은 정확도와 강력한 일반화를 달성하는 데 필수적입니다.
핵심 데이터 정리 기술
원시 정보를 고품질의
훈련 데이터로 변환하려면 몇 가지 체계적인 작업이 필요합니다.
이러한 기술은 모델 학습에 부정적인 영향을 미칠 수 있는 특정 오류를 해결합니다.
모델 학습.
-
누락된 값 처리하기: 불완전한 데이터는 결과를 왜곡할 수 있습니다. 실무자는 종종
대입 기법을 사용하여 평균이나 중앙값과 같은
평균이나 중앙값과 같은 통계적 측정값을 사용하여 격차를 메우거나 불완전한 레코드를 완전히 제거할 수도 있습니다.
-
중복 항목 제거하기: 중복 항목은 인위적으로 중요도를 부풀려
특정 데이터 요소의 중요성을 인위적으로 부풀려서
특정 데이터 포인트의 중요성을 인위적으로 부풀려 편견을 유발할 수 있습니다. 다음과 같은 도구를 사용하여 이러한 중복을 제거할 수 있습니다.
판다 라이브러리
같은 도구를 사용하여 이러한 중복을 제거하면 균형 잡힌 데이터 세트를 확보할 수 있습니다.
-
이상값 관리하기: 표준에서 크게 벗어난 데이터 포인트를 이상값이라고 합니다.
일부는 중요한 이상값을 나타내지만, 일부는 수정하거나 제거해야 하는 오류입니다. 이상값 탐지를 위한
이상값 탐지 기술은 이러한
불규칙성.
-
형식 표준화: 일관되지 않은 형식(예: 'jpg'와 'JPEG'를 혼합하거나
다른 날짜 스타일)은 알고리즘에 혼란을 줄 수 있습니다. 통일된
데이터 품질 표준
모든 데이터가 일관된 구조를 따르도록 보장합니다.
-
구조적 오류 수정: 여기에는 오타, 잘못 레이블이 지정된 클래스 또는 일관되지 않은
모델에서 별도의 카테고리로 취급될 수 있는 대문자를 수정합니다.
AI의 실제 적용 사례
데이터 정리는 정밀도가 가장 중요한 다양한 산업 분야에서 필수적인 작업입니다.
-
의료 진단: In
의료 분야의 AI, 모델이 병리를 detect
병리를 감지합니다. 예를 들어, 뇌종양 데이터세트에 대해 시스템을 학습시킬 때
뇌종양 데이터 세트로 시스템을 훈련할 때 데이터 정리에는
흐릿한 스캔을 제거하고, 환자 메타데이터가 익명화되고 정확한지 확인하며, 종양 주석이 정확하고
정확성을 검증합니다. 이러한 엄격함은 모델이 오탐을 학습하는 것을 방지하며, 이는 환자의 안전에 매우 중요합니다.
국립 생의학 영상 및 생명공학 연구소에서 지적한 바와 같이 환자 안전에 매우 중요합니다.
-
스마트 농업: 대상
농업 분야의 AI, 자동화된 시스템 모니터링
작물의 상태를 모니터링합니다. 데이터 클리닝은 구름이나 센서 노이즈에 의해 가려진 이미지를 필터링하고
GPS 좌표 오류를 수정합니다. 이를 통해 다음을 보장합니다.
작물 건강 모니터링
시스템은 농부들에게 관개 및 해충 방제를 위한 신뢰할 수 있는 인사이트를 제공합니다.
Python 예제: 이미지 무결성 확인
컴퓨터 비전(CV)의 일반적인 데이터 정리 작업은
컴퓨터 비전(CV)의 일반적인 데이터 정리 작업은 학습하기 전에
손상된 이미지 파일을 식별하고 제거하는 것입니다. 다음 스니펫은 표준을 사용하여 이미지 파일을 확인하는 방법을 보여줍니다.
Python 라이브러리를 사용하는 방법을 보여줍니다.
from pathlib import Path
from PIL import Image
# Define the directory containing your dataset images
dataset_path = Path("./data/images")
# Iterate through files and verify they can be opened
for img_file in dataset_path.glob("*.jpg"):
try:
# Attempt to open and verify the image file
with Image.open(img_file) as img:
img.verify()
except (OSError, SyntaxError):
print(f"Corrupt file found and removed: {img_file}")
img_file.unlink() # Deletes the corrupt file
데이터 정제 vs. 관련 개념
데이터 정리를 다른 데이터 준비 단계와 구분하는 것이 중요합니다.
-
데이터 전처리: 이는 정리를 포함하지만 다음과 같은 모델의 데이터 서식 지정도 포함하는 광범위한 용어입니다.
정규화 (픽셀 값 크기 조정) 및 이미지 크기 조정
이미지 크기 조정 등 모델에 대한 데이터 포맷을 포함합니다. 클리닝은 오류를 수정하는 반면, 전처리는 데이터 형식을 최적화합니다.
-
데이터 라벨링: 이 프로세스에는 의미 있는 태그 또는
바운딩 박스를 데이터에 추가합니다. 데이터 정리에는 다음과 같은 작업이 포함될 수 있습니다.
잘못된 레이블을 수정하는 것도 포함될 수 있지만, 레이블 지정 자체는 실측 데이터 주석을 만드는 행위이며, 종종 곧 출시될 예정인
곧 출시될 Ultralytics 플랫폼과 같은 도구의 도움을 받기도 합니다.
-
데이터 증강: 원본 데이터를 개선하는 클리닝과 달리, 증강은 인위적으로 데이터 세트를 확장합니다.
수정된 복사본(예: 이미지 뒤집기 또는 회전)을 생성하여 데이터 세트를 인위적으로 확장합니다.
모델 일반화.
데이터 세트가 깨끗한지 확인하는 것은 데이터 중심 AI 접근 방식에서 중요한 단계입니다.
데이터 중심 AI 접근 방식에서 중요한 단계입니다.
모델을 조정하는 것에서 학습하는 데이터를 개선하는 것으로 초점이 이동합니다. 깨끗한 데이터 세트는 다음과 같은 최첨단 모델의 성능을 향상시키는
최첨단 모델의 성능을 향상시키는 가장 효과적인 방법입니다. YOLO11 와 같은 최신 모델의 성능을 향상시키는 가장 효과적인 방법입니다.
미래의 YOLO26.