YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

데이터 중심 AI

데이터 중심 AI를 만나보세요. 모델 성능을 향상시키기 위해 데이터 세트 품질을 개선하는 접근 방식입니다. 더 나은 모델뿐만 아니라 더 나은 데이터가 강력한 AI의 핵심인 이유를 알아보세요.

데이터 중심 AI는 모델 아키텍처를 반복하는 것보다 데이터 세트의 품질과 일관성을 개선하는 데 우선 순위를 두는 인공지능 시스템 구축 방식입니다. 이 패러다임에서 Ultralytics YOLO와 같은 고급 객체 감지 아키텍처와 같은 모델은 고정된 구성 요소로 간주되는 반면, 주요 초점은 성능을 향상시키기 위해 데이터를 체계적으로 엔지니어링하는 데 있습니다. AI 리더인 Andrew Ng가 대중화한 핵심 아이디어는 많은 실제 애플리케이션에서 훈련 데이터의 품질이 모델 성공의 가장 중요한 동인이라는 것입니다. 여기에는 강력하고 신뢰할 수 있는 AI를 만들기 위해 데이터 정리, 정확한 데이터 레이블링 및 전략적 데이터 소싱과 같은 프로세스가 포함됩니다.

고품질 데이터의 중요성

머신 러닝(ML)에서 '쓰레기가 들어가면 쓰레기가 나온다'는 원칙이 적용됩니다. 노이즈가 많거나 일관성이 없거나 레이블이 잘못 지정된 데이터로 학습된 정교한 신경망(NN)은 필연적으로 신뢰할 수 없는 결과를 생성합니다. 데이터 중심 접근 방식은 데이터 품질의 몇 가지 핵심 측면에 초점을 맞춰 이를 해결합니다. 여기에는 레이블 일관성 보장, 잘못 레이블된 예제 수정, 노이즈가 많거나 관련 없는 데이터 제거 및 엣지 케이스를 다루기 위해 데이터 세트 보강이 포함됩니다. 데이터 증강과 같은 기술은 이 프로세스에서 필수적인 도구로, 개발자가 데이터 세트의 다양성을 인위적으로 확장할 수 있도록 합니다. 고품질 컴퓨터 비전 데이터 세트를 우선시함으로써 팀은 복잡한 모델 재설계보다 적은 노력으로 모델 정확도와 견고성을 크게 향상시킬 수 있습니다.

실제 애플리케이션

데이터 중심 AI 철학은 데이터 품질이 가장 중요한 다양한 실제 시나리오에서 매우 효과적입니다.

  1. 제조 분야의 AI: 전자 부품의 결함을 감지하도록 설계된 생산 라인의 육안 검사 시스템을 생각해 보세요. 데이터 중심 팀은 새로운 모델 아키텍처를 끊임없이 시도하는 대신 데이터 세트에 집중할 것입니다. 드문 결함에 대한 더 많은 이미지를 체계적으로 수집하고, 모든 결함에 정확한 경계 상자로 레이블을 지정하고, 증강을 사용하여 조명과 카메라 각도의 변화를 시뮬레이션합니다. 이러한 데이터 세트를 관리하고 맞춤형 모델의 학습을 간소화하는 데는 Ultralytics HUB와 같은 플랫폼이 도움이 될 수 있습니다. 이러한 데이터의 반복적인 개선은 프로덕션 품질에 직접적인 영향을 미치는 미묘한 결함을 포착할 수 있는 보다 안정적인 시스템으로 이어집니다.
  2. 의료 분야의 AI: 의료 이미지 분석에서는 뇌 스캔에서 종양을 식별하도록 모델을 훈련시킬 수 있습니다. 데이터 중심 전략에는 뇌종양 데이터 세트와 같은 데이터 세트에서 모호한 레이블을 해결하기 위해 영상의학과 전문의와 긴밀히 협력하는 것이 포함됩니다. 팀은 데이터 세트의 편향성을 피하기 위해 잘 알려지지 않은 종양 유형의 예를 적극적으로 찾아 추가하고 데이터에 다양한 환자 인구 통계가 반영되도록 합니다. 고품질의 대표적인 데이터 세트를 큐레이션하는 데 집중하는 것은 임상의가 신뢰할 수 있는 진단 도구를 구축하는 데 매우 중요합니다. 미국 국립보건원(NIH)은 생물의학 연구에서 AI의 역할에 대한 리소스를 제공합니다.

관련 용어와의 구별

  • 모델 중심 AI: 이는 개발자가 모델 개선에 집중하는 동안 데이터 세트를 일정하게 유지하는 기존 접근 방식입니다. 활동에는 새로운 신경망 아키텍처 설계, 광범위한 하이퍼파라미터 튜닝 및 다양한 최적화 알고리즘 구현이 포함됩니다. 중요하지만 모델 중심 초점은 기본 데이터에 결함이 있는 경우 수익이 감소할 수 있습니다. 스탠포드 대학의 데이터 중심 AI 경쟁과 같은 프로젝트는 모델 대신 데이터에 집중하는 힘을 보여줍니다.
  • 빅 데이터: 빅데이터는 매우 크고 복잡한 데이터 집합을 관리하고 분석하는 것을 말합니다. 데이터 중심 AI는 빅데이터에 적용될 수 있지만, 핵심 원칙은 데이터의 양뿐만 아니라 데이터 품질에 관한 것입니다. 작고 세심하게 선별된 데이터 세트가 방대하고 노이즈가 많은 데이터 세트보다 더 나은 결과를 가져오는 경우가 많습니다. 목표는 더 많은 데이터가 아니라 더 나은 데이터를 만드는 것입니다.
  • 탐색적 데이터 분석(EDA): EDA는 데이터 세트를 분석하여 주요 특성을 요약하는 과정으로, 주로 시각적 방법을 사용합니다. EDA는 불일치 및 개선이 필요한 영역을 식별하기 위한 데이터 중심 AI 워크플로우의 중요한 단계이지만, 데이터 중심 AI는 AI 성능을 개선하기 위해 전체 데이터 집합을 체계적으로 엔지니어링하는 더 넓은 의미의 철학입니다. Ultralytics 데이터 세트 탐색기와 같은 도구는 이 프로세스를 용이하게 할 수 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.