Yolo 비전 선전
선전
지금 참여하기
용어집

데이터 중심 AI

데이터 중심 AI를 만나보세요. 모델 성능을 향상시키기 위해 데이터 세트 품질을 개선하는 접근 방식입니다. 더 나은 모델뿐만 아니라 더 나은 데이터가 강력한 AI의 핵심인 이유를 알아보세요.

데이터 중심 AI는 머신러닝(ML) 개발에서 모델 아키텍처 최적화에만 집중하기보다 훈련 데이터의 품질 향상을 강조하는 철학이자 방법론이다. 기존의 모델 중심 접근법에서는 데이터셋이 정적 입력으로 취급되는 경우가 많으며, 엔지니어들은 하이퍼파라미터 튜닝이나 복잡한 신경망 구조 설계에 수주간을 할애한다. 반면 데이터 중심 접근법은 모델 코드를 고정된 기준선으로 간주하고, 체계적인 데이터 정리, 라벨링 일관성 확보, 데이터 증강을 통해 전체 시스템 성능을 향상시키는 데 공학적 노력을 집중합니다. 이러한 전환은 많은 실용적 응용 분야에서 "쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out)" 원칙이 높은 정확도 달성의 주요 병목임을 인식합니다.

핵심 철학: 양보다 질

데이터 중심 AI의 근본 전제는 소규모의 고품질 데이터셋이 방대하지만 잡음이 많은 데이터셋보다 종종 더 나은 결과를 산출한다는 것이다. 앤드류 응( Andrew Ng)과 같은 해당 분야의 선도적 인물들은 AI 커뮤니티가 역사적으로 알고리즘 혁신에 지나치게 집중해 왔다고 주장하며 이러한 전환을 주도해 왔습니다. 견고한 시스템을 구축하기 위해 엔지니어들은 반복적으로 실패 모드를 식별하고 데이터셋을 정제하여 이를 수정하는 능동적 학습 과정에 참여해야 합니다. 이는 정확한 데이터 라벨링, 중복 제거, 모델이 classify 어려운 경계 사례 처리 등을 포함합니다.

이 워크플로의 주요 활동은 다음과 같습니다:

  • 체계적 오류 분석: 정확도와 같은 종합 지표에만 의존하는 대신, 개발자는 항공 사진에서작은 물체를 탐지하는 등 모델이 실패하는 특정 사례를 분석하고, 이러한 취약점을 해결하기 위해 표적 데이터를 수집합니다.
  • 라벨 일관성: 모든 어노테이터가 동일한 가이드라인을 따르는 것이 매우 중요합니다. Label Studio와 같은 도구는 팀이 어노테이션 품질을 관리하여 훈련 과정을 혼란스럽게 하는 상충되는 신호를 방지하도록 지원합니다.
  • 데이터 증강: 개발자들은 데이터 증강 기법을 활용하여 데이터 세트의 다양성을 인위적으로 확장합니다. 회전, 크기 조정, 색상 조정과 같은 변환을 적용함으로써 모델은 미확인 환경에 대한 일반화 능력을 향상시킵니다.
  • 합성 데이터 생성: 실제 데이터가 부족한 경우, 팀은 NVIDIA 같은 시뮬레이션 엔진을 활용해 합성 데이터를 생성함으로써 데이터 세트의 공백을 메우고 희귀 클래스가 적절히 반영되도록 할 수 있습니다.

실제 애플리케이션

컴퓨터 비전 정밀도가 타협할 수 없는 산업 분야에서는 데이터 중심 접근 방식의 채택이 매우 중요합니다.

  1. 정밀 농업: 농업 분야 인공지능에서 건강한 작물과 초기 단계 질병이 있는 작물을 구분하는 것은 종종 미묘한 시각적 단서에 의존합니다. 데이터 중심 팀은 다양한 조명 조건과 생장 단계에서 발생한 질병 사례를 특별히 포함하는 고품질 컴퓨터 비전데이터셋을 구축하는 주력할 것입니다. 이는 모델이 질병 클래스와 무관한 배경 특징을 연관시키는 단축 학습( shortcut learning)이라는 흔한 문제를 방지합니다.
  2. 산업 검사: 제조업에서 AI를 활용할 경우, 결함은 만 개 중 한 개꼴로만 발생할 수 있습니다. 표준 모델 훈련 과정은 클래스 불균형으로 인해 이러한 희귀 사건을 무시할 수 있습니다. 이상 탐지 전략을 활용하고 이러한 특정 결함에 대한 이미지를 수동으로 추가 수집하거나 합성함으로써, 엔지니어들은 시스템이 ISO와 같은 기관이 정의한 품질 관리 기준에 필요한 높은 재현율 ( recall rate)을 달성하도록 보장합니다.

Ultralytics 활용한 데이터 중심 기법 구현

데이터 중심 기법인 데이터 증강을 훈련 파이프라인 내에서 직접 적용할 수 있습니다. 다음 Python 코드는 YOLO26 모델을 로드하고 변형에 대한 강건성을 높이기 위해 공격적인 증강 매개변수로 훈련하는 방법을 보여줍니다.

from ultralytics import YOLO

# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

관련 개념 구분하기

데이터 중심 AI를 이해하려면 머신러닝 생태계 내 유사 용어들과의 차이를 구분해야 합니다.

  • 모델 중심 AI: 데이터 세트가 일정하게 유지되고 하이퍼파라미터 튜닝이나 하이퍼파라미터 튜닝 또는 아키텍처 변경을 통해 개선을 모색합니다. 다음에서 찾을 수 있는 연구 논문에서 최첨단 경계를 넓히는 데는 필요하지만 하지만, 데이터를 정리하는 것에 비해 수익이 감소하는 경우가 많습니다.
  • 빅 데이터: 빅 데이터는 주로 정보의 양(Volume), 속도(Velocity), 다양성(Variety)을 의미합니다. 데이터 중심 AI는 반드시 '빅' 데이터가 필요한 것은 아닙니다. 오히려 '스마트' 데이터가 필요합니다. 데이터 중심 AI 커뮤니티가 강조하듯, 작지만 완벽하게 라벨링된 데이터셋이 방대하지만 잡음이 많은 데이터셋보다 종종 더 우수한 성능을 보입니다.
  • 탐색적 데이터 분석(EDA): 데이터 시각화와 EDA는 데이터 중심 워크플로우 내의 단계입니다. EDA는 다음과 같은 도구를 사용하여 불일치를 식별하는 데 도움을 줍니다. Pandas과 같은 도구를 사용하여 불일치를 식별하는 데 도움이 되지만, 데이터 중심 AI는 추론 엔진을 개선하기 위해 이러한 문제를 해결하는 전체 엔지니어링 라이프사이클을 포괄합니다.
  • MLOps: 머신 러닝 운영(MLOps)은 AI 생산의 라이프사이클을 관리하기 위한 인프라와 파이프라인을 제공합니다. 데이터 중심 AI는 MLOps 파이프라인 내에서 적용되는 방법론으로, 이를 통해 흐르는 데이터가 신뢰할 수 있는 모델을 생성하도록 보장합니다. 다음과 같은 플랫폼들 Weights & Biases 와 같은 플랫폼은 데이터 변경이 모델 지표에 미치는 track 데 흔히 사용됩니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기