Yolo 비전 선전
선전
지금 참여하기
용어집

데이터 정제

마스터 데이터 정리를 통해 AI 모델 정확도를 향상시키세요. 오류를 제거하고, 누락된 값을 처리하며, Ultralytics 위한 깨끗한 데이터셋을 준비하는 기술을 익히세요.

데이터 정리는 기록 집합, 테이블 또는 데이터베이스에서 손상되거나 부정확하거나 관련 없는 기록을 탐지하고 수정(또는 제거)하는 중요한 과정입니다. 인공지능(AI)기계 학습(ML) 분야에서 이 단계는 종종 가장 시간이 많이 소요되지만 필수적인 작업 흐름의 일부로 간주됩니다. YOLO26과 같은 모델이 물체를 효과적으로 인식하도록 학습하기 전에, 훈련 데이터는 오류가 제거되어야 합니다. 이는 "쓰레기 입력, 쓰레기 출력(Garbage In, Garbage Out)" 현상을 방지하기 위함으로, 품질이 낮은 입력은 신뢰할 수 없는 출력을 초래합니다.

인공지능에서 데이터 무결성의 중요성

고성능 컴퓨터 비전 모델은 사용하는 데이터 세트의 품질에 크게 의존합니다. 데이터 세트에 잘못 라벨링된 이미지, 중복 이미지 또는 손상된 파일이 포함되어 있다면 모델은 패턴을 일반화하는 데 어려움을 겪어 과적합이나 낮은 추론 정확도로 이어집니다. 효과적인 데이터 정제는 예측 모델의 신뢰성을 향상시키고 알고리즘이 잡음이 아닌 유효한 신호로부터 학습하도록 보장합니다.

일반적인 데이터 정리 기법

실무자들은 다음과 같은 도구를 사용하여 데이터셋을 정제하기 위해 다양한 전략을 활용합니다. Pandas 과 같은 도구 또는 전문적인 비전 도구를 사용하여 데이터셋을 정제하기 위한 다양한 전략을 활용합니다.

  • 누락값 처리: 이는 누락된 데이터가 있는 레코드를 제거하거나 통계적 평균 또는 최근접 이웃을 기반으로 공백을 채우는 보충 기법을 사용하는 것을 포함합니다.
  • 중복 제거: 훈련 세트 내 중복 이미지는 의도치 않게 모델에 편향을 유발할 수 있습니다. 이를 제거함으로써 모델이 특정 사례를 암기하지 않도록 하여 데이터셋 편향을 완화하는 데 도움이 됩니다.
  • 이상치 탐지: 표준에서 현저히 벗어난 이상치 또는 특이값을 식별하고 처리하는 것은 통계 분석과 모델 가중치를 왜곡할 수 있으므로 매우 중요합니다.
  • 구조적 수정: 클래스 레이블의 오타 수정(예: "Car"와 "car" 구분)을 포함하여 클래스 일관성을 보장합니다.

실제 애플리케이션

데이터 정제는 AI가 도입된 다양한 산업 전반에 걸쳐 핵심적인 역할을 합니다.

  • 의료 영상 분석: 의료 AI 애플리케이션에서 데이터셋은 종종 아티팩트가 포함된 스캔, 잘못된 환자 메타데이터 또는 관련 없는 배경 노이즈를 포함합니다. 이러한 데이터를 정제함으로써 의료 영상 분석 모델이 진단과 관련된 생물학적 지표에만 집중할 수 있도록 보장합니다.
  • 소매 재고 관리: 소매업 AI의 경우 제품 데이터셋에 구형 품목이나 잘못된 종횡비 이미지를 포함할 수 있습니다. 이러한 데이터셋을 정리하면 객체 탐지 모델이 실제 환경에서 재고 수준을 정확히 식별하고 오탐을 줄일 수 있습니다.

데이터 정리와 전처리 구분하기

데이터 클리닝과 데이터 전처리는 종종 혼용되지만 서로 다른 개념입니다. 데이터 클리닝은 오류 수정과 "불량" 데이터 제거에 중점을 둡니다. 반면 전처리는 깨끗한 데이터를 모델에 적합한 형식으로 변환하는 과정으로, 이미지 크기 조정, 정규화, 다양성 증대를 위한 데이터 증강 적용 등이 포함됩니다.

품질 검사 자동화

Ultralytics 등에서 제공하는 현대적인 워크플로는 훈련 시작 전에 손상된 이미지나 레이블 불일치를 식별하기 위한 자동화된 검사를 통합합니다. 아래는 YOLO26과 같은 모델에 데이터를 입력하기 전의 일반적인 단계인 표준 Pillow 라이브러리를 사용하여 손상된 이미지 파일을 확인하고 식별하는 방법을 보여주는 간단한 Python

from pathlib import Path

from PIL import Image


def verify_images(dataset_path):
    """Iterates through a directory to identify corrupt images."""
    for img_path in Path(dataset_path).glob("*.jpg"):
        try:
            with Image.open(img_path) as img:
                img.verify()  # Checks file integrity
        except (OSError, SyntaxError):
            print(f"Corrupt file found: {img_path}")


# Run verification on your dataset
verify_images("./coco8/images/train")

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기