용어집

데이터 어노테이션

데이터 어노테이션이란 무엇인가요? 경계 상자나 다각형으로 데이터에 라벨을 지정하는 것이 정확한 AI 및 컴퓨터 비전 모델을 학습하는 데 어떻게 필수적인지 알아보세요.

데이터 어노테이션은 머신러닝(ML) 모델이 데이터를 이해하고 학습할 수 있도록 원시 데이터에 라벨을 붙이거나 태그를 지정하는 프로세스입니다. 이 중요한 단계는 이미지나 동영상과 같은 비정형 데이터를 알고리즘이 해석할 수 있는 정형화된 정보로 변환합니다. 지도 학습의 맥락에서 이러한 주석은 모델이 스스로 학습하는 데 사용하는 정답, 즉 '근거 자료'의 역할을 합니다. 데이터 주석의 품질과 정확성은 결과물인 인공 지능(AI) 모델의 성능과 신뢰성에 직접적인 영향을 미칩니다. 정확한 주석이 없으면 가장 진보된 모델도 패턴을 효과적으로 학습하지 못합니다.

컴퓨터 비전에서 주석의 역할

컴퓨터 비전(CV)에서 데이터 주석은 모델이 세상을 '보고' 해석하도록 가르치는 데 있어 기본이 됩니다. 여기에는 전문 소프트웨어를 사용하여 시각적 데이터 내에서 관심 있는 객체를 식별하고 표시하는 인간 어노테이터가 포함됩니다. 각기 다른 CV 작업에 적합한 여러 가지 유형의 주석이 있습니다:

  • 바운딩 박스 주석: 객체 감지에 사용되는 가장 일반적인 형태입니다. 어노테이터는 개별 객체 주위에 직사각형 상자를 그리고 클래스 레이블(예: '자동차', '사람')을 할당합니다.
  • 다각형 분할: 인스턴스 분할과 같이 더 높은 정밀도가 필요한 작업의 경우, 어노테이터는 각 객체의 정확한 윤곽을 추적합니다. 이를 통해 모델은 오브젝트가 겹치는 경우에도 오브젝트의 특정 모양과 경계를 이해할 수 있습니다.
  • 시맨틱 세분화: 이 방법은 이미지의 모든 픽셀을 특정 카테고리(예: '하늘', '도로', '건물')로 분류하는 것입니다. 인스턴스 분할과 달리 동일한 객체 클래스의 다른 인스턴스를 구분하지 않습니다.
  • 키포인트 주석: 포즈 추정에 사용되는 이 기술은 인체의 관절이나 얼굴의 모서리와 같은 객체에 특정 관심 지점(키포인트)을 표시하는 것입니다.
  • 분류: 가장 간단한 형태로, 전체 이미지에 하나의 레이블이 할당됩니다. 이는 이미지 분류 작업의 기본입니다.

주석 방법의 선택은 프로젝트 목표 정의 가이드에 설명된 CV 프로젝트의 구체적인 목표에 따라 달라집니다.

실제 애플리케이션

  1. 자율 주행 차량: 자율 주행 자동차는 광범위하게 주석이 달린 데이터로 학습된 모델에 의존합니다. 어노테이터는 보행자, 자전거 운전자부터 신호등, 차선 표시, 도로 표지판까지 모든 것을 수백만 개의 이미지와 LiDAR 포인트 클라우드에 라벨을 붙입니다. 이 상세한 학습 데이터를 통해 차량의 인식 시스템은 주변 환경을 이해하고 안전한 주행 결정을 내릴 수 있습니다. Argoverse와 같은 데이터 세트는 자동차 솔루션에서 강력한 AI를 개발하는 데 매우 중요합니다.
  2. 의료 이미지 분석: 의료용 AI에서는 방사선 전문의와 의료 전문가가 종양, 병변, 골절 또는 기타 이상을 강조하기 위해 MRI, CT, 엑스레이와 같은 의료 스캔에 주석을 달기도 합니다. 공개 뇌종양 데이터 세트와 같은 주석이 달린 데이터 세트는 조기 진단 및 치료 계획을 지원할 수 있는 Ultralytics YOLO와 같은 모델을 훈련하는 데 사용됩니다. 북미 방사선 학회(RSNA)는 연구를 위해 이러한 데이터 세트를 여러 개 제공합니다.

데이터 주석과 관련 개념 비교

데이터 주석은 다른 데이터 준비 기술과 함께 논의되는 경우가 많지만, 서로 다른 용도로 사용됩니다.

  • 데이터 어노테이션과 데이터 라벨링: 이 두 용어는 종종 같은 의미로 사용되며 동일한 핵심 프로세스를 나타냅니다. "컴퓨터 비전에서는 다각형이나 키포인트 그리기와 같은 보다 복잡한 작업을 설명하기 위해 '주석'을 선호하는 반면, 분류와 같은 간단한 작업에는 '라벨링'을 사용할 수 있습니다. 그러나 모든 실용적인 목적에 있어 두 용어는 동의어입니다. 자세한 내용은 컴퓨터 비전을 위한 데이터 라벨링에 대한 설명서를 참조하세요.
  • 데이터 어노테이션과 데이터 증강 비교: 어노테이션은 초기 실측 기준 레이블을 생성하는 프로세스입니다. 반면 데이터 증강은 주석 이후에 주석이 달린 이미지의 수정된 버전을 만들어 데이터 세트의 크기를 인위적으로 늘리는 데 사용되는 기술입니다(예: 회전, 뒤집기 또는 밝기 변경).
  • 데이터 주석과 데이터 정리 비교: 데이터 정리에는 오류를 수정하고, 중복을 제거하고, 데이터 세트 내의 누락된 값을 처리하여 전반적인 품질을 보장하는 작업이 포함됩니다. 정리 작업은 어노테이션 전(예: 흐릿한 이미지 제거) 또는 후(예: 잘못된 레이블 수정)에 수행할 수 있지만, 새 레이블을 추가하는 행위 자체와는 구별됩니다. 효과적인 주석을 위해서는 높은 데이터 품질이 필수적입니다.

어노테이션 프로세스는 CVAT와 같은 오픈 소스 옵션부터 Scale AI, Labelbox와 같은 상용 플랫폼까지 다양한 도구를 사용해 관리할 수 있습니다. Ultralytics HUB와 같은 플랫폼은 데이터 세트 관리, 모델 훈련, 데이터 수집 및 어노테이션에서 배포에 이르는 전체 워크플로우를 간소화할 수 있는 통합 솔루션을 제공합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨