Yolo 비전 선전
선전
지금 참여하기
용어집

데이터 중심 AI

데이터 중심 AI를 활용하여 데이터 품질을 최우선으로 하여 모델 성능을 향상시키세요. Ultralytics 사용하여 Ultralytics 데이터셋을 선별하는 방법을 알아보세요.

데이터 중심 AI는 모델 아키텍처나 하이퍼파라미터 조정에 주로 집중하기보다 모델 훈련에 사용되는 데이터 세트의 품질 향상에 중점을 두는 머신러닝 철학이자 접근법이다. 전통적인 모델 중심 개발에서는 엔지니어들이 종종 알고리즘을 반복적으로 개선하여 더 나은 성능을 끌어내는 동안 데이터 세트는 고정된 상태로 유지한다. 데이터 중심 AI는 이러한 패러다임을 뒤집어, 현대적 애플리케이션의 상당수에서 모델 아키텍처는 이미 충분히 발전되어 있으며 성능 향상의 가장 효과적인 방법은 데이터 자체를 체계적으로 설계하는 것이라고 제안합니다. 이는 데이터셋을 정리하고, 라벨링하고, 증강하고, 큐레이팅하여 일관성 있고 다양하며 실제 문제를 대표하도록 보장하는 작업을 포함합니다.

핵심 철학: 양보다 질을 중시하는 데이터 품질

데이터 중심 방법론으로의 전환은 "쓰레기를 넣으면 쓰레기가 나온다"는 말이 머신러닝의 근본적 진리임을 인정합니다. 데이터가 잡음이 많거나 편향된 경우 단순히 더 많은 데이터를 추가하는 것이 항상 해결책이 되지는 않습니다. 대신 이 접근법은 고품질 컴퓨터 비전 데이터 세트의 중요성을 강조합니다. 데이터 품질과일관성을 우선시함으로써 개발자는 방대하고 혼란스러운 데이터 세트보다 잘 선별된 소규모 데이터 세트로 더 높은 정확도를 달성할 수 있습니다.

이 철학은 능동적 학습과 밀접하게 연결되어 있으며, 모델이 다음에 라벨링할 가장 가치 있는 데이터 포인트를 식별하는 데 도움을 줍니다. Ultralytics 같은 도구는 데이터 주석 작업과 관리를 간소화하여 팀이 데이터 세트의 건강 상태 개선을 위해 협업할 수 있도록 지원함으로써 이를 촉진합니다. 이는 데이터 세트가 종종 정적인 산물로 취급되는 순수한 감독 학습 워크플로와 대조를 이룹니다.

데이터 중심 인공지능의 핵심 기술

데이터 중심 전략을 구현하는 것은 단순한 데이터 수집을 넘어서는 여러 실질적인 단계를 수반합니다.

  • 라벨 일관성: 모든 어노테이터가 객체를 정확히 동일한 방식으로 라벨링하도록 보장하는 것이 매우 중요합니다. 예를 들어, 객체 탐지 작업에서 차량의 사이드 미러를 바운딩 박스에 포함시킬지 여부를 엄격히 정의하는 것은 모델 성능에 상당한 영향을 미칠 수 있습니다.
  • 데이터 증강: 기존 데이터에 변환을 체계적으로 적용하여 극단적인 사례를 포괄하는 과정입니다. 회전 및 모자이크 증강과 같은 기법이 모델의 일반화 능력을 향상시키는 방식을 이해하려면 저희의 데이터 증강에 관한 궁극의 가이드 를참고하세요.
  • 오류 분석: 모델이 실패하는 특정 클래스나 시나리오를 식별하고 해당 격차를 해결하기 위한 표적 데이터를 수집하는 과정입니다. 이는 종종 혼동 행렬을 검토하여 취약점을 정확히 파악하는 작업을 수반합니다.
  • 데이터 정리: 중복 이미지 제거, 잘못 라벨링된 예제 수정, 신경망을 혼란스럽게 할 수 있는 저품질 데이터 걸러내기.

실제 애플리케이션

데이터 중심 접근법은 신뢰성이 절대적으로 요구되는 산업을 변화시키고 있다.

  1. 의료 영상: 의료 영상 분야의 종양 탐지와 같은 경우, 수백만 장의 이미지를 확보하는 것은 불가능합니다. 대신 연구자들은 전문가 검토를 거친 매우 정확한 데이터셋을 선별하는 데 집중합니다. 데이터 중심 접근법은 분할 마스크의 모든 픽셀이 정확하도록 보장합니다. 모호한 레이블은 생명을 위협하는 오류로 이어질 수 있기 때문입니다.
  2. 제조 품질 관리: 시각 검사 시스템을 도입할 때 흠집이나 찌그러짐 같은 결함은 완벽한 부품에 비해 드물다. 데이터 중심 전략은 데이터셋의 균형을 맞추기 위해 결함 데이터를 합성하거나 특별히 포착하는 것을 포함하며, 모델이 모든 항목에 대해 단순히 "합격"을 예측하지 않도록 보장한다.

데이터 중심 AI 대 모델 중심 AI

데이터 중심 AI와 모델 중심 AI를 구분하는 것이 중요합니다. 모델 중심 워크플로우에서는 데이터셋이 고정되어 있으며, 모델 아키텍처를 변경함으로써(예: YOLO11 에서 커스텀 ResNet으로 전환) 또는 학습률과 같은 매개변수 조정을 통해 지표를 개선하는 것이 목표입니다. 데이터 중심 워크플로에서는 모델 아키텍처가 고정되어 있으며(예: YOLO26 표준화), 라벨 정리, 다양한 예제 추가, 또는 이상치 처리를 통해 지표를 개선하는 것이 목표입니다.

다음 코드 조각은 간단한 데이터 중심 검사를 보여줍니다: 훈련 전에 데이터 세트에서 손상된 이미지를 확인하는 것입니다. 이는 불량 데이터로 인해 훈련 파이프라인이 실패하지 않도록 보장합니다.

from ultralytics.data.utils import check_cls_dataset

# Validate a classification dataset structure and integrity
# This helps identify issues with data organization before training begins
try:
    # Checks the dataset defined in a YAML or path structure
    check_cls_dataset("mnist", split="train")
    print("Dataset structure is valid and ready for data-centric curation.")
except Exception as e:
    print(f"Data issue found: {e}")

데이터 중심 개발을 위한 도구

데이터 중심 AI를 효과적으로 구현하기 위해 개발자는 강력한 툴링에 의존합니다. Ultralytics 데이터 라이프사이클 관리를 위한 중앙 허브 역할을 하며, 라벨링 프로세스를 가속화하면서도 일관성을 유지하는 자동 주석 기능을 제공합니다. 또한 탐색 도구를 사용하면 데이터셋을 의미론적으로 쿼리(예: "밤에 찍힌 빨간 차 이미지 모두 찾기")하여 분포와 편향을 파악할 수 있습니다.

데이터에 집중함으로써 엔지니어들은 자율주행차나 스마트 리테일과 같은 동적 환경에 배포하기에 더 견고하고 공정하며 실용적인 시스템을 구축할 수 있습니다. 이러한 변화는 많은 문제에서 코드는 해결된 문제이지만 데이터는 여전히 혁신의 최전선임을 인정하는 것입니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기