머신러닝에서 데이터 라벨링의 중요한 역할, 프로세스, 과제 및 AI 개발의 실제 응용 분야를 알아보세요.
데이터 레이블링은 원시 데이터(예: 이미지, 텍스트 파일 또는 비디오)를 식별하고 하나 이상의 정보 레이블 또는 어노테이션을 추가하여 컨텍스트를 제공함으로써 머신러닝 모델이 이를 통해 학습할 수 있도록 하는 프로세스입니다. 이 프로세스는 지도 학습의 기본이며, 여기서 레이블이 지정된 데이터 세트는 알고리즘이 새로운 레이블이 지정되지 않은 데이터에 대해 정확한 예측을 수행하도록 스스로를 훈련하는 데 사용하는 "정답(ground truth)" 역할을 합니다. 고품질 데이터 레이블링은 강력한 AI 모델을 구축하는 데 있어 가장 중요하고 시간이 많이 소요되는 단계 중 하나이며, 모델의 성능은 모델이 학습하는 레이블의 품질과 정확성에 직접적으로 의존합니다.
데이터 레이블링은 모델이 세상을 이해하고 해석하는 데 필요한 기반을 제공합니다. 컴퓨터 비전(CV)에서 레이블은 모델에게 객체가 무엇인지, 그리고 이미지 내에서 어디에 위치하는지를 인식하도록 가르칩니다. 정확한 레이블이 없으면 모델은 작업을 수행하는 데 필요한 패턴을 학습할 수 없어 정확도가 떨어지고 신뢰성이 저하됩니다. 레이블링을 통해 생성되는 훈련 데이터의 품질은 결과 AI의 품질을 직접적으로 결정합니다. 이 원칙은 종종 "쓰레기가 들어가면 쓰레기가 나온다(garbage in, garbage out)"로 요약됩니다. COCO 및 ImageNet과 같은 잘 레이블링된 벤치마크 데이터 세트는 컴퓨터 비전 분야의 최첨단 기술을 발전시키는 데 중요한 역할을 했습니다.
다양한 CV 작업에는 다양한 유형의 주석이 필요합니다. 가장 일반적인 방법은 다음과 같습니다.
데이터 레이블링은 종종 다른 데이터 준비 작업과 함께 수행되지만, 이들 간의 차이를 구별하는 것이 중요합니다.
데이터 레이블링은 중요성에도 불구하고 높은 비용, 상당한 시간 투자, 인적 오류 또는 주관성의 가능성을 포함하여 어려움이 많습니다. 대규모 주석 작업자 팀에서 레이블 품질과 일관성을 보장하는 것은 주요 물류 문제입니다.
이 프로세스를 간소화하기 위해 팀은 종종 데이터 세트 및 레이블 지정 워크플로 관리를 위한 협업 환경을 제공하는 CVAT와 같은 특수 주석 도구 또는 Ultralytics HUB와 같은 플랫폼을 사용합니다. 또한 능동 학습과 같은 고급 기술은 레이블을 지정할 가장 유익한 데이터 포인트를 지능적으로 선택하여 인간 주석가의 시간과 노력을 최적화하는 데 도움이 될 수 있습니다. Stanford AI Lab 기사에 자세히 설명된 바와 같이 데이터 품질에 대한 집중은 성공적인 AI의 핵심입니다.