Data-Centric AI

데이터 품질을 우선시하여 모델 성능을 높이는 데이터 중심(Data-Centric) AI를 탐구해 보십시오. Ultralytics Platform을 사용하여 Ultralytics YOLO26를 위한 데이터셋을 큐레이션하는 방법을 배우십시오.

Data-Centric AI는 모델 아키텍처나 하이퍼파라미터를 조정하는 데 우선순위를 두기보다 모델 학습에 사용되는 데이터셋의 품질을 개선하는 데 중점을 두는 머신러닝 철학이자 접근 방식입니다. 기존의 모델 중심(model-centric) 개발 환경에서 엔지니어들은 종종 더 나은 성능을 끌어내기 위해 데이터셋은 고정해 둔 채 알고리즘을 반복적으로 수정합니다. Data-Centric AI는 이러한 패러다임을 전환하여, 많은 현대적 애플리케이션의 경우 모델 아키텍처가 이미 충분히 발전했으므로 성능을 개선하는 가장 효과적인 방법은 데이터 자체를 체계적으로 엔지니어링하는 것이라고 제안합니다. 이는 데이터셋이 일관되고 다양하며 실제 문제를 잘 대표할 수 있도록 데이터셋을 정리, 라벨링, 증강 및 큐레이션하는 과정을 포함합니다.

Link to this section핵심 철학: 양보다 데이터 품질#

데이터 중심 방법론으로의 전환은 머신러닝에서 "쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out)"는 원칙이 근본적인 진리임을 인식하는 것입니다. 데이터가 노이즈가 많거나 편향되어 있다면 단순히 데이터를 더 추가하는 것이 항상 해결책은 아닙니다. 대신, 이 접근 방식은 고품질 컴퓨터 비전 데이터셋의 중요성을 강조합니다. 데이터 품질과 일관성을 우선시함으로써, 개발자는 방대하고 정리되지 않은 데이터셋보다 더 작고 잘 큐레이션된 데이터셋으로 더 높은 정확도를 달성하는 경우가 많습니다.

이 철학은 능동 학습(active learning)과 밀접하게 연관되어 있으며, 모델은 다음에 라벨을 지정할 가장 가치 있는 데이터 포인트를 식별하도록 돕습니다. Ultralytics Platform과 같은 도구는 데이터 어노테이션 및 관리 프로세스를 간소화하여 팀이 데이터셋 상태를 개선하는 데 협력할 수 있도록 함으로써 이를 촉진합니다. 이는 데이터셋을 정적인 결과물로 취급하는 순수 지도 학습(supervised learning) 워크플로우와 대조됩니다.

Link to this sectionData-Centric AI의 주요 기술#

데이터 중심 전략을 구현하려면 단순한 데이터 수집을 넘어선 몇 가지 실용적인 단계가 필요합니다.

라벨 일관성: 모든 어노테이터가 동일한 방식으로 객체에 라벨을 지정하도록 보장하는 것이 중요합니다. 예를 들어 객체 탐지(object detection)에서 자동차의 사이드 미러를 바운딩 박스에 포함할지 여부를 엄격하게 정의하는 것은 모델 성능에 상당한 영향을 미칠 수 있습니다.
데이터 증강(Data Augmentation): 기존 데이터에 변환을 체계적으로 적용하여 엣지 케이스를 다루는 것입니다. 회전 및 모자이크 증강과 같은 기술이 모델의 일반화 능력을 어떻게 향상시키는지 이해하려면 데이터 증강을 위한 완벽한 가이드를 참조하십시오.
오류 분석: 모델이 실패하는 특정 클래스나 시나리오를 식별하고 해당 격차를 해결하기 위해 타겟 데이터를 수집하는 과정입니다. 여기에는 종종 약점을 정확히 찾아내기 위해 혼동 행렬(confusion matrices)을 검사하는 작업이 포함됩니다.
데이터 정제: 중복 이미지를 제거하고, 잘못 라벨링된 예시를 수정하며, 신경망(neural network)을 혼란스럽게 할 수 있는 저품질 데이터를 필터링하는 것입니다.

Link to this section실제 애플리케이션 사례#

데이터 중심 접근 방식은 신뢰성이 무엇보다 중요한 산업 분야를 변화시키고 있습니다.

의료 영상: 의료 영상의 종양 탐지와 같은 분야에서는 수백만 장의 이미지를 확보하는 것이 불가능합니다. 대신 연구자들은 전문가의 검토를 거친 정확도 높은 데이터셋을 큐레이션하는 데 집중합니다. 애매한 라벨은 생명을 위협하는 오류로 이어질 수 있으므로, 데이터 중심 접근 방식은 세그멘테이션 마스크의 모든 픽셀이 정확하도록 보장합니다.
제조 품질 관리: 시각 검사 시스템을 배포할 때, 흠집이나 찍힘과 같은 결함은 완벽한 부품에 비해 드뭅니다. 데이터 중심 전략은 결함 데이터를 합성하거나 특별히 캡처하여 데이터셋의 균형을 맞춤으로써, 모델이 모든 항목에 대해 단순히 "통과"라고 예측하지 않도록 보장합니다.

Link to this sectionData-Centric AI vs. 모델 중심 AI#

Data-Centric AI와 모델 중심 AI를 구분하는 것은 중요합니다. 모델 중심 워크플로우에서는 데이터셋은 고정되어 있으며 목표는 모델 아키텍처를 변경(YOLO11에서 커스텀 ResNet으로 전환하는 등)하거나 학습률(learning rate)과 같은 파라미터를 조정하여 지표를 개선하는 것입니다. 데이터 중심 워크플로우에서는 모델 아키텍처가 고정되어 있으며(YOLO26으로 표준화하는 등), 목표는 라벨을 정제하거나 다양한 예시를 추가하거나 이상치(outliers)를 처리하여 지표를 개선하는 것입니다.

다음 코드 스니펫은 간단한 데이터 중심 검사를 보여줍니다. 바로 학습 전에 데이터셋의 손상된 이미지를 확인하는 것입니다. 이를 통해 불량 데이터로 인해 학습 파이프라인(training pipeline)이 실패하지 않도록 방지할 수 있습니다.

from ultralytics.data.utils import check_cls_dataset

# Validate a classification dataset structure and integrity
# This helps identify issues with data organization before training begins
try:
    # Checks the dataset defined in a YAML or path structure
    check_cls_dataset("mnist", split="train")
    print("Dataset structure is valid and ready for data-centric curation.")
except Exception as e:
    print(f"Data issue found: {e}")

Link to this section데이터 중심 개발을 위한 도구#

효과적으로 Data-Centric AI를 실천하기 위해 개발자는 강력한 도구에 의존합니다. Ultralytics Platform은 데이터 수명 주기를 관리하는 중앙 허브 역할을 하며, 일관성을 유지하면서 라벨링 과정을 가속화하는 자동 어노테이션(auto-annotation) 기능을 제공합니다. 또한 탐색 도구(explorer tools)를 사용하면 사용자가 데이터셋을 의미론적으로 쿼리하여(예: "밤에 촬영된 빨간색 자동차 이미지 모두 찾기") 분포와 편향을 파악할 수 있습니다.

데이터에 집중함으로써 엔지니어는 자율 주행차나 스마트 리테일과 같은 역동적인 환경에서 더 강력하고 공정하며 실용적인 배포 시스템을 구축할 수 있습니다. 이러한 변화는 많은 문제에 있어 코드는 이미 해결된 문제이지만, 데이터가 여전히 혁신의 최전선임을 인정하는 것입니다.

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

Data-Centric AI

Link to this section핵심 철학: 양보다 데이터 품질#

Link to this sectionData-Centric AI의 주요 기술#

Link to this section실제 애플리케이션 사례#

Link to this sectionData-Centric AI vs. 모델 중심 AI#

Link to this section데이터 중심 개발을 위한 도구#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!