학습 데이터
AI에서 학습 데이터가 갖는 중요성을 알아보세요. 고품질 데이터 세트가 실제 작업을 위한 정확하고 강력한 머신 러닝 모델에 어떻게 힘을 실어주는지 알아보세요.
학습 데이터는 머신 러닝 모델에
머신러닝(ML) 모델에 정보를 처리하고
정보를 처리하고, 패턴을 인식하고, 예측하는 방법을 가르치는 데 사용됩니다. 지도 학습의 맥락에서
지도 학습의 맥락에서 이 데이터 세트는 다음과 같이 구성됩니다.
입력 예시와 그에 해당하는 원하는 출력(일반적으로 레이블 또는 주석이라고 함)으로 구성됩니다. 모델이 이 정보를 처리할 때
모델은 이 정보를 처리하면서 반복적으로 내부의
모델 가중치를 반복적으로 조정하여 오류를 최소화하고 정확도를 개선합니다.
학습 데이터의 품질, 양, 다양성은 종종 시스템 성공의 가장 중요한 결정 요인입니다.
시스템의 성공을 결정짓는 가장 중요한 요소입니다.
인공 지능(AI).
고품질 훈련 데이터의 특징
데이터 과학의 기본은 '쓰레기 투입, 쓰레기 배출'이라는 격언처럼, 모델은 그 모델이 학습하는 데이터만큼만
학습합니다. 강력한 컴퓨터 비전(CV) 시스템을 구축하려면
강력한 컴퓨터 비전(CV) 시스템을 구축하려면 데이터 세트가 엄격한 기준을
엄격한 기준을 충족해야 합니다.
-
관련성 및 정확성: 데이터는 모델이 해결하고자 하는 실제 문제를 정확하게 표현해야 합니다.
정확하게 표현해야 합니다. 부정확하거나 '노이즈가 많은' 레이블은 학습 과정에 혼란을 줄 수 있습니다. 다음용 도구
데이터 라벨링 도구는 다음과 같은 주석을 보장하는 데 도움이 됩니다.
바운딩 박스 또는 세분화 마스크와 같은 주석이 정확하도록 도와줍니다.
-
다양성 및 볼륨: 제한된 데이터 세트는 다음과 같은 결과를 초래할 수 있습니다.
과적합(모델이 학습 예제를 암기하고
예제를 암기하지만 새로운 데이터에서는 작동하지 않는 과적합으로 이어질 수 있습니다. 크고 다양한 데이터 세트는 모델이 더 잘 일반화할 수 있도록 도와줍니다. 개발자
는 종종 데이터 증강 기법을 사용합니다.
이미지 뒤집기, 회전 또는 밝기 조정과 같은 데이터 증강 기술을 사용하여 데이터 집합을 인위적으로 확장하고 다양성을 도입합니다.
-
편향성 완화: 데이터 세트는 신중하게 큐레이션되어야 합니다.
데이터 세트 편향으로 인해 불공정하거나 왜곡된
예측을 초래할 수 있습니다. 이 문제를 해결하는 것은
책임감 있는 AI 개발과 공평한 결과 보장
공평한 결과를 보장하는 핵심 요소입니다.
훈련, 검증 및 테스트 데이터 차별화하기
학습 데이터와 모델 개발 수명 주기 동안 사용되는 다른 데이터 세트 분할을
모델 개발 수명 주기 동안 사용되는 다른 데이터 세트 분할과 구별하는 것이 중요합니다. 각 하위 집합은 고유한 용도로 사용됩니다:
-
학습 데이터: 모델 매개변수를 맞추는 데 직접 사용되는 가장 큰 하위 집합(일반적으로 70~80%)입니다.
-
유효성 검사 데이터: 모델 적합도를 편향 없이 평가하는 데 사용되는 별도의
하위 집합을 사용하여 모델 적합도에 대한 편향되지 않은 평가를 제공합니다. 개발자는 이를 통해
하이퍼파라미터를 조정하는 데 도움이 되며
학습 속도와 같은 하이퍼파라미터를 조정하는 데 도움이 되며, 성능이 정체되는 경우
성능 정체.
-
테스트 데이터: 완전히 보이지 않는 데이터 세트
학습이 완료된 후에만 사용됩니다. 이 데이터는 모델의 최종 지표를 제공합니다.
정확도와 실제 세계로 일반화하는 능력의
시나리오.
실제 애플리케이션
교육 데이터는 거의 모든 산업에서 혁신을 뒷받침합니다.
-
자율 주행: 자율 주행 자동차는 다음과 같은 방대한 데이터 세트에 의존합니다.
뉘씬스 또는 웨이모 오픈 데이터 세트와 같은 방대한 데이터 세트에 의존하여
안전하게 주행합니다. 이러한 데이터 세트에는 모든 차량, 보행자, 교통 표지판에 주석을 단 수천 시간의 동영상이 포함되어 있습니다.
표지판에 주석을 달았습니다. 이 다양한 데이터를 학습함으로써
자율주행 차량은 장애물을 detect 방법을 학습하고
복잡한 교통 시나리오를 실시간으로 해석하는 방법을 학습합니다.
-
의료 진단: In
의료 영상 분석, 방사선 전문의
는 특정 조건으로 레이블이 지정된 엑스레이, CT 스캔 또는 MRI로 구성된 학습 데이터를 큐레이팅합니다. 예를 들어, 모델
암 영상 아카이브(TCIA) 와 같은 리소스로 훈련된 모델들은
잠재적인 종양을 높은 정밀도로 강조 표시하여 의사를 지원할 수 있습니다. 이러한 적용
의료 분야에서 AI를 적용하면
진단 속도를 크게 높이고 환자 치료 결과를 개선합니다.
Ultralytics YOLO 사용한 교육
그리고 ultralytics 라이브러리는 학습 데이터 활용 프로세스를 간소화합니다. 이 프레임워크는 데이터
로딩, 증강 및 트레이닝 루프를 효율적으로 처리합니다. 다음 예는 트레이닝을 시작하는 방법을 보여줍니다.
을 사용하는 방법을 보여줍니다. YOLO11 표준 데이터 세트 구성이 있는 모델
파일에 추가합니다.
from ultralytics import YOLO
# Load the YOLO11 Nano model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
# The 'data' argument points to a YAML file defining the training data path
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
고품질 교육 데이터를 소싱하려는 경우 다음과 같은 플랫폼을 사용할 수 있습니다.
Google 데이터 세트 검색 및
Kaggle Datasets와 같은 플랫폼은 다음과 같은 작업을 포괄하는 광범위한 리포지토리를 제공합니다.
이미지 세분화부터 자연어
처리까지 광범위한 리포지토리를 제공합니다. 이러한 데이터를 적절히 관리하는 것은 고성능 AI 솔루션을 구축하기 위한 첫 번째 단계입니다.