Yolo 비전 선전
선전
지금 참여하기
용어집

데이터 라벨링

머신러닝에서 데이터 라벨링의 중요한 역할, 프로세스, 과제 및 AI 개발의 실제 응용 분야를 알아보세요.

데이터 라벨링은 의미 있는 컨텍스트로 원시 데이터에 태그를 지정하거나 주석을 달아 데이터 세트를 생성하는 기본적인 프로세스입니다. 훈련에 적합한 데이터 세트를 만드는 기본적인 프로세스입니다. 지도 학습의 맥락에서 지도 학습, 알고리즘에는 다음이 필요합니다. 입력 데이터(예: 이미지)와 예상 출력(라벨)을 모두 포함하는 예시가 필요합니다. 이 레이블 정보는 기초 자료의 역할을 하며, 모델의 최종 기준이 되는 모델의 예측을 측정하고 개선하는 결정적인 표준 역할을 합니다. 고품질 라벨링이 없으면 다음과 같은 가장 정교한 아키텍처조차도 Ultralytics YOLO11와 같은 정교한 아키텍처도 패턴을 정확하게 인식하거나 패턴을 정확하게 인식하거나 객체를 식별하는 방법을 배울 수 없습니다.

정확한 라벨 제작의 중요성

모든 AI 시스템의 성능은 학습 데이터의 품질과 불가분의 관계에 있습니다. 품질과 밀접한 관련이 있습니다. 레이블이 일관되지 않거나 부정확하거나 부정확한 경우, 모델은 결함이 있는 연관성을 학습하게 되는데, 이는 컴퓨터 과학에서 널리 알려진 문제입니다. "쓰레기 입력, 쓰레기 출력"으로 널리 알려진 문제입니다. 정확한 라벨링을 통해 모델은 보이지 않는 새로운 데이터에 대해 잘 일반화할 수 있으며, 이는 강력한 컴퓨터 비전(CV) 애플리케이션을 배포하는 데 강력한 컴퓨터 비전(CV) 애플리케이션을 배포하는 데 매우 중요합니다. 주요 벤치마크 데이터 세트 COCO 데이터 세트ImageNet 과 같은 주요 벤치마크 데이터 세트가 업계 표준이 된 것은 광범위하고 세심한 라벨링이 있었기 때문입니다.

컴퓨터 비전에서 일반적인 라벨링 유형

데이터 라벨링의 구체적인 방법은 컴퓨터 비전 작업의 목적에 따라 크게 달라집니다:

  • 이미지 분류: 전체 이미지에 단일 카테고리 또는 클래스 태그 할당하기(예: 사진에 '맑음' 또는 "rainy").
  • 물체 감지: 2D 그리기 관심 객체 주위에 경계 상자를 그리고 각 상자에 클래스를 할당합니다. 이렇게 하면 모델에 객체가 무엇이고 어디에 있는지 알려줍니다.
  • 이미지 세분화: 픽셀 단위로 완벽한 픽셀 완벽한 마스크 만들기. 시맨틱 세그멘테이션은 영역에 범주(예: 모든 "도로" 픽셀)에 따라 영역에 레이블을 지정하고 인스턴스 세분화는 같은 클래스의 개별 객체(예: "자동차 1", "자동차 2")를 구분합니다.
  • 포즈 추정: 주석 달기 관절과 같은 피사체의 특정 키포인트에 주석을 달아서 (골격 추적)과 같은 특정 키포인트에 주석을 달아 움직임과 자세를 파악합니다.

실제 애플리케이션

데이터 라벨링을 통해 AI는 복잡한 실제 환경에서 작동할 수 있습니다. 두 가지 대표적인 예가 있습니다:

  1. 자율 주행 차량: 자율주행차가 안전하게 주행하려면 자율주행차가 안전하게 주행하기 위해서는 사람이 차선, 교통 표지판, 교통 표지판, 차량, 교통 표지판, 보행자 및 기타 차량에 라벨을 붙인 학습 데이터가 필요합니다. 이를 통해 차량의 인식 시스템이 도로의 지형과 지형과 잠재적 위험을 즉각적으로 해석할 수 있습니다. 이에 대한 자세한 내용은 자동차 솔루션의 AI에서 자세히 알아보세요.
  2. 의료 이미지 분석: 의료 분야에서 방사선 전문의는 의료 스캔에 라벨을 붙여 이상 징후를 식별합니다. 예를 들어 뇌종양 데이터 세트에서 전문가는 병변의 정확한 경계를 병변의 정확한 경계를 설명할 수 있습니다. 이렇게 라벨이 지정된 데이터는 의사의 조기 진단을 지원하는 모델을 훈련시켜 환자 치료 결과를 개선합니다. 자세히 알아보기 의료 분야의 AI에서 이러한 모델이 실제로 작동하는 모습을 살펴보세요.

데이터 레이블링과 관련 개념 비교

데이터 준비 파이프라인에서 사용되는 유사한 용어와 라벨링을 구분하는 것이 도움이 됩니다:

  • Vs. 데이터 주석: 이 용어 은 종종 같은 의미로 사용됩니다. 그러나 '라벨링'은 때때로 다음과 같은 간단한 작업을 위해 예약되어 있습니다. 분류(태그 지정)와 같은 간단한 작업에 사용되는 반면, '주석'은 다각형 그리기나 플로팅과 같은 더 풍부한 메타데이터를 의미하며 키포인트.
  • 데이터 증강: 라벨링은 초기 데이터 세트를 생성합니다. 이후에는 소프트웨어가 라벨링된 이미지를 수학적으로 변경(회전, 뒤집기, 노이즈 추가 등)하여 라벨링된 이미지를 수학적으로 변경(회전, 뒤집기, 노이즈 추가)하여 사람의 수동 작업 없이 인위적으로 사람의 노력 없이도
  • 데이터 정리: 여기에는 다음이 포함됩니다. 손상된 파일을 제거하거나 레이블이 잘못 지정된 항목을 수정하는 등 데이터 세트의 오류를 수정합니다. 정리는 어노테이터가 제공한 라벨의 라벨의 무결성을 보장합니다.

도구 및 코드 예제

수동 라벨 제작은 시간이 많이 걸리지만 최신 워크플로에서는 다음과 같은 전문 소프트웨어를 사용하는 경우가 많습니다. CVAT(컴퓨터 비전 주석 도구)와 같은 전문 소프트웨어를 활용하거나 능동적 학습을 활용하여 프로세스 속도를 높입니다. 곧 출시될 곧 출시될 Ultralytics 플랫폼은 이 전체 데이터 소싱부터 자동 주석에 이르기까지 전체 수명 주기를 간소화하도록 설계되었습니다.

다음 Python 스니펫은 사전 레이블이 지정된 데이터 세트를 사용하여 YOLO11 모델을 훈련하는 방법을 보여줍니다. (coco8.yaml). 학습 프로세스는 전적으로 데이터 세트 구성 파일에 정의된 정확한 레이블의 존재 여부에 의존합니다. 데이터 세트 구성 파일에 정의된 정확한 레이블의 존재 여부에 전적으로 의존합니다.

from ultralytics import YOLO

# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
# The dataset YAML file contains paths to images and their corresponding labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# The model updates its weights based on the labeled data provided

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기