데이터 어노테이션이란 무엇입니까? 정확한 AI 및 컴퓨터 비전 모델 훈련에 필수적인 바운딩 박스 또는 폴리곤으로 데이터에 레이블을 지정하는 방법을 알아보세요.
데이터 주석 작업은 기계 학습(ML) 모델이 학습하는 데 필요한 맥락을 제공하기 위해 원시 데이터에 라벨링, 태깅 또는 전사 작업을 수행하는 핵심 과정입니다. 이 단계는 알고리즘이 패턴을 인식하고 예측을 수행하도록 입력-출력 쌍으로 훈련되는 방법인 지도 학습의 초석입니다. 라벨링된 정보는 모델이 재현하고자 하는 이상적인 결과를 나타내는 기준값( ground truth) 역할을 합니다. 정확하고 일관된 주석이 없다면, Ultralytics 같은 고급 아키텍처조차도 효과적으로 작동할 수 없습니다. 시스템의 정확도는 훈련 데이터의 품질에 직접적으로 의존하기 때문입니다.
컴퓨터 비전(CV) 분야에서 데이터 주석 작업은 이미지나 비디오 프레임 내 특정 특징을 표시하는 것을 의미합니다. 사용되는 방법은 모델이 수행하도록 구축되는 특정 작업에 크게 좌우됩니다.
데이터 어노테이션은 다양한 산업 분야에서 원시 센서 데이터와 지능형 의사 결정 사이의 간극을 메웁니다.
데이터셋 준비 워크플로우에서 흔히 사용되는 다른 용어들과 데이터 어노테이션을 구분하는 것이 유용합니다.
고품질 어노테이션 생성은 일반적으로 JSON이나 XML과 같은 표준 형식으로 데이터를 내보내는 전문 소프트웨어가 필요합니다. 현대적인 워크플로는 데이터 소싱, 자동 어노테이션, 모델 훈련을 하나의 인터페이스에서 간소화하는 Ultralytics 같은 통합 환경으로 점점 더 이동하고 있습니다.
데이터에 주석이 추가되면, 훈련을 위해 구성 파일(주로 YAML)에서 참조됩니다. 다음 예시는 기존 주석이 포함된 표준 COCO8 사용하여 YOLO26 모델을 훈련하는 방법을 보여줍니다.
from ultralytics import YOLO
# Load the latest YOLO26 model (nano version)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# The YAML file points to the annotated images and labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
