YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

데이터 라벨링

머신러닝에서 데이터 라벨링의 중요한 역할, 프로세스, 과제 및 AI 개발의 실제 응용 분야를 알아보세요.

데이터 레이블링은 원시 데이터(예: 이미지, 텍스트 파일 또는 비디오)를 식별하고 하나 이상의 정보 레이블 또는 어노테이션을 추가하여 컨텍스트를 제공함으로써 머신러닝 모델이 이를 통해 학습할 수 있도록 하는 프로세스입니다. 이 프로세스는 지도 학습의 기본이며, 여기서 레이블이 지정된 데이터 세트는 알고리즘이 새로운 레이블이 지정되지 않은 데이터에 대해 정확한 예측을 수행하도록 스스로를 훈련하는 데 사용하는 "정답(ground truth)" 역할을 합니다. 고품질 데이터 레이블링은 강력한 AI 모델을 구축하는 데 있어 가장 중요하고 시간이 많이 소요되는 단계 중 하나이며, 모델의 성능은 모델이 학습하는 레이블의 품질과 정확성에 직접적으로 의존합니다.

데이터 레이블링이 중요한 이유는 무엇인가?

데이터 레이블링은 모델이 세상을 이해하고 해석하는 데 필요한 기반을 제공합니다. 컴퓨터 비전(CV)에서 레이블은 모델에게 객체가 무엇인지, 그리고 이미지 내에서 어디에 위치하는지를 인식하도록 가르칩니다. 정확한 레이블이 없으면 모델은 작업을 수행하는 데 필요한 패턴을 학습할 수 없어 정확도가 떨어지고 신뢰성이 저하됩니다. 레이블링을 통해 생성되는 훈련 데이터의 품질은 결과 AI의 품질을 직접적으로 결정합니다. 이 원칙은 종종 "쓰레기가 들어가면 쓰레기가 나온다(garbage in, garbage out)"로 요약됩니다. COCOImageNet과 같은 잘 레이블링된 벤치마크 데이터 세트는 컴퓨터 비전 분야의 최첨단 기술을 발전시키는 데 중요한 역할을 했습니다.

컴퓨터 비전의 데이터 레이블링 유형

다양한 CV 작업에는 다양한 유형의 주석이 필요합니다. 가장 일반적인 방법은 다음과 같습니다.

  • Image Classification: 가장 간단한 형태로, 전체 이미지에 단일 레이블을 할당하여 해당 내용을 설명합니다 (예: "고양이", "개"). CIFAR-100과 같은 이 작업에 대한 데이터 세트를 탐색할 수 있습니다.
  • 객체 감지: 이미지에서 관심 있는 각 객체 주위에 바운딩 박스를 그리고 클래스 레이블을 할당하는 것을 포함합니다. 이는 모델에 객체가 무엇인지와 위치를 모두 알려줍니다.
  • Image Segmentation: 픽셀 수준에서 객체의 정확한 모양을 윤곽선으로 표시하는 보다 세분화된 방법입니다. 이는 동일한 클래스의 모든 객체가 하나의 마스크를 공유하는 의미론적 분할과 각 개별 객체 인스턴스가 개별적으로 분할되는 인스턴스 분할로 더 나눌 수 있습니다.
  • 자세 추정(Pose Estimation): 이 기술은 키포인트를 주석 처리하여 객체의 위치와 방향을 식별합니다. 예를 들어, 사람 자세 추정에서 키포인트는 팔꿈치, 무릎, 손목과 같은 관절을 표시합니다. COCO Keypoints 데이터 세트는 이 작업을 위한 널리 사용되는 리소스입니다.

실제 애플리케이션

  1. 자율 주행 차량: 데이터 레이블링은 자율 주행 자동차의 인식 시스템을 학습하는 데 필수적입니다. 사람 주석자는 수백만 개의 이미지와 비디오 프레임에 세심하게 레이블을 지정하여 자동차, 보행자 및 자전거 타는 사람 주위에 경계 상자를 그리고 차선 표시를 분할하고 교통 표지판을 분류합니다. 이 풍부한 레이블이 지정된 데이터를 통해 Ultralytics YOLO11과 같은 모델은 복잡한 도시 환경을 안전하게 탐색하는 방법을 배울 수 있습니다. Waymo와 같은 회사의 작업은 방대하고 정확하게 레이블이 지정된 데이터 세트에 크게 의존합니다. 자동차 솔루션의 AI 페이지에서 이 분야에 대해 자세히 알아볼 수 있습니다.
  2. 의료 영상 분석: 헬스케어 AI에서 방사선 전문의와 의료 전문가는 MRI, CT 및 X선과 같은 스캔에 레이블을 지정하여 종양, 병변 및 기타 이상 징후를 식별합니다. 예를 들어 뇌종양 데이터 세트에서 전문가는 종양의 정확한 경계를 윤곽으로 표시합니다. 이 레이블이 지정된 데이터는 조기 진단을 지원할 수 있는 모델을 학습하는 데 사용되어 의료 전문가의 작업량을 줄이고 환자 결과를 개선할 수 있습니다. 북미 방사선 학회(RSNA)는 의료 진단에서 AI의 역할을 적극적으로 탐구합니다.

데이터 레이블링과 관련 개념 비교

데이터 레이블링은 종종 다른 데이터 준비 작업과 함께 수행되지만, 이들 간의 차이를 구별하는 것이 중요합니다.

  • 데이터 증강: 이 기술은 이미 레이블이 지정된 데이터의 수정된 버전을 생성하여 학습 데이터 세트를 인위적으로 확장합니다(예: 이미지 회전, 뒤집기 또는 밝기 변경). 증강은 데이터 다양성을 높이지만 초기 레이블이 지정된 데이터 세트에 따라 달라집니다. 데이터 증강 개요에서 자세한 내용을 확인할 수 있습니다.
  • 데이터 정리: 이 프로세스에는 데이터 세트에서 오류, 불일치 및 부정확성을 식별하고 수정하거나 제거하는 작업이 포함됩니다. 여기에는 잘못된 레이블 수정이 포함될 수 있지만 데이터 정리는 품질 보증 단계인 반면, 데이터 레이블링은 주석을 만드는 초기 행위입니다. Wikipedia의 데이터 정제에서 추가 컨텍스트를 제공합니다.
  • 데이터 전처리: 이는 데이터 레이블링, 정리, 그리고 모델을 준비하기 위한 정규화 또는 이미지 크기 조정과 같은 다른 변환을 포괄하는 광범위한 용어입니다. 레이블링은 더 큰 전처리 파이프라인 내의 특정하고 중요한 단계입니다.

과제 및 해결책

데이터 레이블링은 중요성에도 불구하고 높은 비용, 상당한 시간 투자, 인적 오류 또는 주관성의 가능성을 포함하여 어려움이 많습니다. 대규모 주석 작업자 팀에서 레이블 품질과 일관성을 보장하는 것은 주요 물류 문제입니다.

이 프로세스를 간소화하기 위해 팀은 종종 데이터 세트 및 레이블 지정 워크플로 관리를 위한 협업 환경을 제공하는 CVAT와 같은 특수 주석 도구 또는 Ultralytics HUB와 같은 플랫폼을 사용합니다. 또한 능동 학습과 같은 고급 기술은 레이블을 지정할 가장 유익한 데이터 포인트를 지능적으로 선택하여 인간 주석가의 시간과 노력을 최적화하는 데 도움이 될 수 있습니다. Stanford AI Lab 기사에 자세히 설명된 바와 같이 데이터 품질에 대한 집중은 성공적인 AI의 핵심입니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.