데이터 중심 AI를 만나보세요. 모델 성능을 향상시키기 위해 데이터 세트 품질을 개선하는 접근 방식입니다. 더 나은 모델뿐만 아니라 더 나은 데이터가 강력한 AI의 핵심인 이유를 알아보세요.
데이터 중심 AI는 인공지능 시스템 개발을 위한 전략적 접근 방식입니다. 인공 지능(AI) 시스템 을 개발하기 위한 전략적 접근 방식으로, 주로 모델 아키텍처를 반복하기보다는 학습 데이터의 품질을 개선하는 데 중점을 둡니다. 기존 워크플로에서 개발자는 데이터 세트를 고정된 입력으로 간주하고 하이퍼파라미터를 조정하거나 하이퍼파라미터를 조정하거나 복잡한 신경망(NN) 구조를 설계하는 데 상당한 노력을 기울입니다. 이와는 대조적으로 데이터 중심 방법론에서는 모델 코드, 즉 Ultralytics YOLO11-와 같은 모델 코드를 비교적 정적인 기준선으로 취급합니다, 체계적인 데이터 정리, 라벨링 일관성, 성능 향상을 위한 보강에 엔지니어링 노력을 집중하여 성능 향상.
모든 머신러닝(ML) 시스템의 효과는 근본적으로 "가비지 인, 가비지 아웃"의 원칙에 의해 제한됩니다. 가장 진보된 알고리즘조차도 잡음이 많거나 잘못 레이블이 지정된 입력으로부터 노이즈가 많거나 레이블이 잘못 지정된 입력으로부터 효과적인 패턴을 학습할 수 없습니다. 데이터 중심 AI는 많은 실용적인 애플리케이션의 경우 애플리케이션의 경우, 학습 데이터가 가장 가장 중요한 변수라고 가정합니다. 이 접근 방식은 소규모의 고품질 데이터 세트가 대규모의 잡음이 많은 데이터보다 더 나은 더 나은 결과를 얻을 수 있다고 강조합니다.
앤드류 응과 같은 이 철학을 지지하는 사람들은 AI 커뮤니티의 초점이 모델 중심의 혁신에 불균형적으로 치우쳐 있다고 주장합니다. 강력한 시스템을 구축하려면 엔지니어는 적극적인 학습 프로세스에 참여해야 합니다. 반복적으로 실패 모드를 식별하고 데이터 세트를 개선하여 이를 수정해야 합니다. 여기에는 정확한 데이터 라벨링, 중복 제거 및 엣지 처리 모델에서 classify 어려운 사례들을 처리해야 합니다.
데이터 중심 전략을 구현하려면 정보 밀도와 일관성을 극대화하기 위해 데이터 집합을 설계하는 몇 가지 기술 프로세스가 필요합니다. 정보 밀도와 일관성을 극대화하도록 설계된 몇 가지 기술 프로세스가 필요합니다.
다음 Python 코드는 교육 중에 데이터 중심 증강 기술을 적용하는 방법을 보여줍니다.
ultralytics 패키지입니다.
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
데이터 중심 접근 방식을 채택하는 것은 다음과 같은 산업에서 매우 중요합니다. 컴퓨터 비전(CV)의 정밀도가 매우 중요합니다.
데이터 중심 AI를 이해하려면 머신러닝 에코시스템의 유사한 용어와 구별해야 합니다.