용어집

데이터 라벨링

머신 러닝에서 데이터 라벨링의 중요한 역할과 그 프로세스, 과제, AI 개발의 실제 적용 사례에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 라벨링은 이미지, 텍스트 파일, 동영상, 오디오 녹음과 같은 원시 데이터에 의미 있는 태그, 주석 또는 레이블을 추가하는 중요한 프로세스입니다. 이러한 라벨은 필수적인 컨텍스트를 제공하여 원시 데이터를 머신러닝(ML) 모델이 이해하고 학습할 수 있는 구조화된 정보로 변환합니다. 특히 지도 학습에서 레이블이 지정된 데이터는 알고리즘이 패턴을 식별하고 보이지 않는 새로운 데이터를 정확하게 예측하는 데 사용하는 검증된 정답, 즉 '근거 데이터'의 역할을 합니다. 이러한 라벨의 품질과 정확성은 특히 컴퓨터 비전(CV) 영역에서 인공지능(AI) 시스템의 성능과 신뢰성에 직접적인 영향을 미치는 가장 중요한 요소입니다.

데이터 라벨링의 중요성

고품질의 레이블이 지정된 데이터는 성공적인 ML 프로젝트의 토대가 됩니다. 다음을 포함한 고급 모델 Ultralytics YOLO 제품군을 비롯한 고급 모델은 학습 과정에서 효과적으로 학습하기 위해 정확하게 레이블이 지정된 데이터 세트에 크게 의존합니다. 일관되지 않거나 부정확하거나 편향된 레이블은 모델 성능을 심각하게 저하시켜 실제 애플리케이션에서 신뢰할 수 없는 예측과 잘못된 일반화로 이어질 수 있습니다. 수집, 정리, 라벨링을 포함하는 데이터 준비는 데이터 과학 현황 보고서와 같은 업계 보고서에서 강조한 것처럼 AI 개발에서 시간과 리소스의 상당 부분을 차지하는 경우가 많기 때문에 그 중요성이 강조되고 있습니다. 좋은 라벨이 없으면 아무리 정교한 알고리즘이라도 의미 있는 결과를 얻지 못합니다.

데이터 라벨링 프로세스

고품질의 레이블이 지정된 데이터 집합을 생성하려면 일반적으로 몇 가지 주요 단계가 필요합니다:

  1. 데이터 수집: 특정 작업과 관련된 원시 데이터(이미지, 동영상 등)를 수집합니다.
  2. 도구 선택: 적절한 데이터 주석 소프트웨어 또는 플랫폼 선택(예: LabelImg 또는 Ultralytics HUB와 같은 통합 플랫폼).
  3. 가이드라인 정의: 일관성과 정확성을 보장하기 위해 주석 작성자를 위한 명확한 지침을 수립하는 것입니다.
  4. 주석: 정의된 가이드라인에 따라 데이터에 라벨을 적용하는 작업입니다. 여기에는 사람이 주석을 달거나 반자동화된 접근 방식이 포함될 수 있습니다.
  5. 품질 보증: 라벨링된 데이터를 검토하여 정확성과 가이드라인 준수 여부를 확인하는 작업으로, 종종 여러 번의 확인 또는 합의 메커니즘이 수반됩니다.

이러한 단계에 대한 실질적인 지침은 Ultralytics 데이터 수집 및 주석 가이드를 참조하세요.

컴퓨터 비전에서 데이터 라벨링의 유형

컴퓨터 비전 작업에는 각기 다른 라벨링 기술이 필요합니다:

  • 이미지 분류: 전체 이미지에 하나의 레이블을 할당하는 작업(예: '고양이', '개', '자동차'). ImageNet과 같은 데이터 세트는 이 작업의 기본입니다.
  • 객체 감지: 이미지 내에서 관심 있는 객체 주위에 경계 상자를 그리고 각 상자에 클래스 레이블을 할당합니다(예: 거리 장면에서 모든 자동차와 보행자 위치 찾기). COCO 데이터 세트는 널리 사용되는 벤치마크입니다.
  • 이미지 세분화: 이미지의 모든 픽셀에 클래스 레이블을 할당하는 작업입니다. 이는 다시 시맨틱 세 분화(클래스별로 픽셀을 그룹화)와 인스턴스 세분화 (동일한 클래스 내에서 개별 개체 인스턴스를 구분)로 나눌 수 있습니다. 예시는 세분화 작업 페이지를 참조하세요.
  • 포즈 추정: 일반적으로 사람이나 동물의 자세 분석(예: 팔꿈치, 무릎, 손목과 같은 관절 위치 찾기)에 사용되는 객체에서 특정 키포인트의 위치를 식별하는 작업입니다.

애플리케이션 및 실제 사례

데이터 라벨링은 수많은 AI 애플리케이션에서 필수적인 요소입니다:

  1. 자율주행 차량: 자율주행차는 보행자, 차량, 신호등, 차선 표시 및 기타 도로 요소를 식별하기 위해 세심하게 라벨이 지정된 데이터(이미지, LiDAR 포인트 클라우드)가 필요합니다. Waymo 오픈 데이터 세트와 같은 데이터 세트는 인식 모델 학습에 중요한 레이블이 지정된 센서 데이터를 제공합니다.
  2. 의료 이미지 분석: 의료 분야의 AI에서는 방사선과 전문의와 전문가가 종양, 골절 또는 기타 이상 징후를 강조하기 위해 의료 스캔(X-레이, CT, MRI)에 라벨을 붙입니다. 암 이미징 아카이브(TCIA) 와 같은 공공 아카이브에서는 연구를 위해 라벨이 지정된 의료 이미지를 제공합니다. 이를 통해 다음과 같은 모델이 가능합니다. YOLO11 와 같은 모델이 질병 발견에 도움을 줄 수 있습니다.
  3. 소매업: 자동화된 재고 관리 또는 고객 행동 분석을 위해 진열대에 제품에 라벨을 붙입니다.
  4. 농업: 농작물 이미지에 주석을 달아 질병, 해충을 감지하거나 수확량을 예측하여 정밀 농업 기술을 지원합니다.

관련 개념

데이터 라벨링은 다른 기본적인 ML 개념과 밀접하게 연관되어 있습니다:

  • 학습 데이터: 데이터 라벨링은 지도 학습에 필수적인 라벨링된 학습 데이터 세트를 생성하는 데 사용되는 프로세스입니다.
  • 데이터 증강: 이 기술은 이미 라벨이 지정된 데이터에 변환(회전, 뒤집기 등)을 적용하여 데이터 세트 크기와 다양성을 인위적으로 증가시킵니다. 이는 라벨링을 보완하지만 초기 주석의 필요성을 대체하지는 않습니다. 데이터 증강에 대한 개요에서 더 자세한 내용을 확인할 수 있습니다.
  • 데이터 정리: 여기에는 라벨링 전, 도중 또는 후에 발생할 수 있는 데이터 집합 내의 오류, 불일치 또는 부정확성을 식별하고 수정하는 작업이 포함됩니다. Wikipedia의 데이터 정리는 더 자세한 맥락을 제공합니다. 이는 학습에 사용되는 데이터의 전반적인 품질을 보장합니다.
  • 지도 학습: 이 ML 패러다임은 명시적으로 레이블이 지정된 데이터(입출력 쌍)에 의존하여 모델을 학습시킵니다. Wikipedia의 지도 학습 페이지에서 자세히 알아보세요.

데이터 라벨링의 과제

데이터 라벨링은 그 필요성에도 불구하고 몇 가지 장애물에 직면해 있습니다:

  • 비용과 시간: 대규모 데이터 세트에 라벨을 붙이는 작업은 비용과 시간이 많이 소요될 수 있으며, 종종 상당한 인력이 필요할 수 있습니다.
  • 확장성: 대규모 데이터 세트에 대한 라벨링 작업을 관리하고 확장하는 데는 물류 문제가 수반됩니다.
  • 주관성: 데이터나 가이드라인의 모호함으로 인해 서로 다른 주석 작성자 간에 일관성 없는 레이블이 생길 수 있습니다.
  • 품질 관리: 높은 데이터 품질과 정확성을 보장하려면 강력한 검토 프로세스가 필요합니다.

능동 학습과 같은 기술은 Wikipedia의 능동 학습 페이지에 자세히 설명된 대로 라벨링에 가장 유익한 데이터 요소를 지능적으로 선택함으로써 이러한 문제를 완화하고 잠재적으로 필요한 전반적인 노력을 줄이는 데 도움이 될 수 있습니다. Ultralytics HUB와 같은 플랫폼 및 다음과 같은 서비스와의 통합 Roboflow 와 같은 서비스와의 통합은 데이터 관리 및 라벨링 워크플로우를 간소화하는 것을 목표로 합니다.

모두 보기