Yolo 비전 선전
선전
지금 참여하기
용어집

데이터 중심 AI

데이터 중심 AI를 만나보세요. 모델 성능을 향상시키기 위해 데이터 세트 품질을 개선하는 접근 방식입니다. 더 나은 모델뿐만 아니라 더 나은 데이터가 강력한 AI의 핵심인 이유를 알아보세요.

데이터 중심 AI는 인공지능 시스템 개발을 위한 전략적 접근 방식입니다. 인공 지능(AI) 시스템 을 개발하기 위한 전략적 접근 방식으로, 주로 모델 아키텍처를 반복하기보다는 학습 데이터의 품질을 개선하는 데 중점을 둡니다. 기존 워크플로에서 개발자는 데이터 세트를 고정된 입력으로 간주하고 하이퍼파라미터를 조정하거나 하이퍼파라미터를 조정하거나 복잡한 신경망(NN) 구조를 설계하는 데 상당한 노력을 기울입니다. 이와는 대조적으로 데이터 중심 방법론에서는 모델 코드, 즉 Ultralytics YOLO11-와 같은 모델 코드를 비교적 정적인 기준선으로 취급합니다, 체계적인 데이터 정리, 라벨링 일관성, 성능 향상을 위한 보강에 엔지니어링 노력을 집중하여 성능 향상.

핵심 철학: 양보다 질

모든 머신러닝(ML) 시스템의 효과는 근본적으로 "가비지 인, 가비지 아웃"의 원칙에 의해 제한됩니다. 가장 진보된 알고리즘조차도 잡음이 많거나 잘못 레이블이 지정된 입력으로부터 노이즈가 많거나 레이블이 잘못 지정된 입력으로부터 효과적인 패턴을 학습할 수 없습니다. 데이터 중심 AI는 많은 실용적인 애플리케이션의 경우 애플리케이션의 경우, 학습 데이터가 가장 가장 중요한 변수라고 가정합니다. 이 접근 방식은 소규모의 고품질 데이터 세트가 대규모의 잡음이 많은 데이터보다 더 나은 더 나은 결과를 얻을 수 있다고 강조합니다.

앤드류 응과 같은 이 철학을 지지하는 사람들은 AI 커뮤니티의 초점이 모델 중심의 혁신에 불균형적으로 치우쳐 있다고 주장합니다. 강력한 시스템을 구축하려면 엔지니어는 적극적인 학습 프로세스에 참여해야 합니다. 반복적으로 실패 모드를 식별하고 데이터 세트를 개선하여 이를 수정해야 합니다. 여기에는 정확한 데이터 라벨링, 중복 제거 및 엣지 처리 모델에서 classify 어려운 사례들을 처리해야 합니다.

주요 기술 및 구현

데이터 중심 전략을 구현하려면 정보 밀도와 일관성을 극대화하기 위해 데이터 집합을 설계하는 몇 가지 기술 프로세스가 필요합니다. 정보 밀도와 일관성을 극대화하도록 설계된 몇 가지 기술 프로세스가 필요합니다.

  • 체계적인 데이터 정리: 여기에는 다음과 같은 주석의 오류를 감지하고 수정하는 작업이 포함됩니다. 객체를 단단히 둘러싸지 않는 경계 상자를 식별하거나 또는 클래스 불일치 오류를 수정하는 등의 오류를 감지하고 수정합니다.
  • 데이터 증강: 개발자는 데이터 증강 기술을 사용하여 인위적으로 데이터 세트의 다양성을 확장합니다. 회전, 크기 조정, 색상 조정과 같은 변형을 적용함으로써 모델은 보이지 않는 환경에 더 잘 일반화하는 방법을 학습합니다.
  • 합성 데이터 생성: 실제 데이터가 부족한 경우, 팀은 데이터 세트의 부족한 부분을 채우기 위해 합성 데이터를 생성하여 데이터 세트의 공백을 메울 수 있습니다, 희귀한 클래스를 적절하게 표현할 수 있습니다.
  • 오류 분석: 엔지니어는 다음과 같은 집계 메트릭만 살펴보는 대신 정확도와 같은 집계 지표만 보는 대신, 엔지니어는 모델이 실패하는 특정 사례를 모델이 실패하는 특정 사례를 분석하고 이러한 특정 약점을 해결하기 위해 타깃 데이터를 수집합니다.

다음 Python 코드는 교육 중에 데이터 중심 증강 기술을 적용하는 방법을 보여줍니다. ultralytics 패키지입니다.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

실제 애플리케이션

데이터 중심 접근 방식을 채택하는 것은 다음과 같은 산업에서 매우 중요합니다. 컴퓨터 비전(CV)의 정밀도가 매우 중요합니다.

  1. 정밀 농업: In 농업 분야에서의 AI, 건강한 작물과 건강한 작물과 초기 단계의 질병에 걸린 작물을 구별하는 것은 종종 미묘한 시각적 신호에 의존합니다. 데이터 중심 팀은 다음 사항에 집중합니다. 큐레이팅 고품질 컴퓨터 비전 데이터 세트 다양한 조명 조건과 성장 단계에 따른 질병의 예를 구체적으로 포함하는 고품질 컴퓨터 비전 데이터 세트를 큐레이팅하여 모델이 관련 없는 배경 특징을 질병 종류와 연관시키는 방법을 학습하지 않도록 합니다.
  2. 산업 검사: 대상 제조 분야의 AI, 결함 발생 가능성은 만 개 중 한 번만 발생할 수 있습니다. 표준 모델 학습을 실행하면 이러한 드문 이벤트를 무시할 수 있습니다. 따라서 이상 감지 전략과 수동으로 이러한 특정 결함에 대한 더 많은 이미지를 소싱하거나 합성함으로써 엔지니어는 시스템이 품질 관리 표준에 필요한 높은 품질 관리 표준에 필요한 높은 리콜률 높은 리콜률을 달성할 수 있습니다.

관련 개념 구분하기

데이터 중심 AI를 이해하려면 머신러닝 에코시스템의 유사한 용어와 구별해야 합니다.

  • 모델 중심 AI: 데이터 세트가 일정하게 유지되고 하이퍼파라미터 튜닝이나 하이퍼파라미터 튜닝 또는 아키텍처 변경을 통해 개선을 모색합니다. 다음에서 찾을 수 있는 연구 논문에서 최첨단 경계를 넓히는 데는 필요하지만 하지만, 데이터를 정리하는 것에 비해 수익이 감소하는 경우가 많습니다.
  • 빅 데이터: 빅 데이터는 주로 다음을 의미합니다. 정보의 양, 속도, 다양성을 의미합니다. 데이터 중심 AI에는 반드시 "빅" 데이터가 필요한 것은 아닙니다; 오히려 '스마트한' 데이터가 필요합니다. 레이블이 완벽하게 지정된 작은 데이터 세트는 종종 노이즈가 많은 대규모 데이터보다 하나.
  • 탐색적 데이터 분석(EDA): 데이터 시각화 및 EDA는 데이터 중심 워크플로우의 단계입니다. EDA는 불일치를 식별하는 데 도움이 되지만, 데이터 중심 AI는 이러한 문제를 해결하고 이러한 문제를 해결하여 추론 엔진을 개선하는 전체 엔지니어링 라이프사이클을 포괄합니다. 추론 엔진.
  • MLOps: 머신 러닝 운영(MLOps) 은 AI 프로덕션의 수명 주기를 관리하기 위한 인프라와 파이프라인을 제공합니다. 데이터 중심 AI는 파이프라인을 통해 흐르는 데이터가 신뢰할 수 있는 모델을 생성하도록 보장하는 방법론입니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기