용어집

데이터 세트 편향

AI에서 데이터 세트 편향을 식별하고 완화하여 실제 애플리케이션을 위한 공정하고 정확하며 신뢰할 수 있는 머신 러닝 모델을 보장하는 방법을 알아보세요.

데이터 세트 편향이란 머신러닝 모델을 학습하는 데 사용되는 정보의 체계적인 오류나 불균형으로 인해 머신 러닝(ML) 모델을 학습하는 데 사용되는 정보의 체계적인 오류 또는 불균형을 의미하며, 그 결과 실제 환경을 정확하게 반영하지 못하는 시스템을 의미합니다. 다음과 같은 맥락에서 컴퓨터 비전(CV)의 경우, 모델은 전적으로 학습 데이터에 기반하여 패턴을 인식하는 방법을 학습합니다. 만약 특정 인구 통계나 환경 조건을 과도하게 나타내는 등 이 기반이 왜곡된 경우 모델은 이러한 사각지대를 '상속'하게 됩니다. 이러한 현상은 일반화가 제대로 이루어지지 않는 주요 원인입니다. AI 시스템이 테스트에서는 잘 작동하지만 실제 배포 시에는 실패하는 경우 다양한 시나리오에서 실시간 추론에 실패하는 주요 원인입니다.

데이터 세트 편향의 일반적인 원인

편견이 어디서 시작되는지 이해하는 것이 예방의 첫걸음입니다. 편견은 종종 초기 단계에서 데이터 수집 및 주석 데이터 수집 및 주석 프로세스의 초기 단계에서 종종 발생합니다:

선택 편향: 수집된 데이터가 대상 집단을 대표하지 않을 때 발생합니다. 무작위로 수집할 때 발생합니다. 예를 들어, 얼굴 인식 시스템을 위해 이미지를 수집할 때 얼굴 인식 시스템의 이미지를 수집하는 경우 학생들만 대상으로 이미지를 수집하면 연령 분포가 왜곡되어 모델이 노년층에서 성능이 저하될 수 있습니다.
대표성 편향: 데이터가 광범위하게 수집되더라도 특정 그룹이 현저하게 과소 대표될 수 있습니다. 주로 유럽 도시를 대상으로 하는 도시 도시 계획에 대한 벤치마크 데이터 세트는 아시아나 아프리카 대도시의 인프라를 정확하게 분석하지 못할 수 있습니다. 대도시의 인프라를 정확하게 분석하지 못할 수 있습니다.
라벨링 편향: 데이터 라벨링 중 주관성 인간의 편견이 개입될 수 있습니다. 만약 어노테이터가 모호함이나 명확한 가이드라인의 부재로 인해 특정 객체를 지속적으로 잘못 분류하는 경우, 모델은 이러한 오류를 이러한 오류를 근거 사실로 학습하게 됩니다.

실제 사례 및 영향

데이터 세트 편향의 결과는 사소한 불편함에서 중대한 안전 실패에 이르기까지 다양합니다. 심각한 안전 실패로 이어질 수 있습니다.

의료 진단: In 의료 분야의 AI는 모델을 사용하여 detect 같은 피부암과 같은 질환을 감지하는 데 사용됩니다. 훈련 데이터 세트가 주로 밝은 피부 톤의 이미지로 구성된 경우, 환자를 분석할 때 모델의 피부색이 어두운 환자를 분석할 때 정확도가 크게 떨어집니다. 이러한 차이는 다양한 의료 이미지 분석 데이터 세트의 중요성을 강조합니다. 다양한 의료 이미지 분석 데이터 세트의 중요성을 공평한 환자 치료.
자율 주행: 자율 주행 자동차는 보행자와 보행자를 식별하기 위해 보행자 및 장애물을 식별하기 위한 장애물을 식별하는 데 의존합니다. 모델이 주로 맑고 건조한 기후에서 수집된 데이터로 학습된 경우 눈이나 비가 내리는 동안의 위험을 detect 못할 수 있습니다. 감지하지 못할 수 있습니다. 이는 제한된 환경 변화가 자율 주행 차량에 얼마나 위험한 자율주행 차량의 안전 격차를 만드는 대표적인 예입니다.

데이터 세트 편향 vs. 알고리즘 편향

종종 함께 논의되지만, 데이터 세트 편향은 다음과 같이 구분하는 것이 도움이 됩니다. 알고리즘 편향과 구별하는 것이 좋습니다.

데이터 세트 편향은 데이터 중심적이며, 입력(성분)에 결함이 있음을 의미합니다. 모델이 완벽하게 완벽하게 학습하고 있을 수도 있지만, 왜곡된 현실에서 학습하고 있습니다.
알고리즘 편향은 모델 중심적이며, 알고리즘 자체의 설계 또는 사용된 최적화 알고리즘에서 최적화 알고리즘의 설계에서 발생합니다. 예를 들어 모델은 수학적으로 에지 클래스를 무시하고 전체 정확도를 극대화하기 위해 다수 클래스에 우선순위를 두는 경향이 있을 수 있습니다. 케이스.

두 가지 모두 AI의 편향성이라는 더 광범위한 문제에 기여합니다. 이 문제를 해결하는 것은 AI 윤리와 AI 공정성의 공정성의 핵심입니다.

완화 전략

개발자는 편향을 식별하고 줄이기 위해 여러 가지 기술을 사용할 수 있습니다. 합성 데이터 활용 합성 데이터를 활용하면 실제 데이터가 부족한 부족한 부분을 채울 수 있습니다. 또한, 엄격한 모델 평가를 통해 전체 평균이 아닌 하위 그룹별 성과를 세분화하는 엄격한 모델 평가를 통해 숨겨진 결함을 발견할 수 있습니다.

또 다른 강력한 방법은 데이터 증강입니다. 개발자는 색상, 회전 또는 조명을 변경하는 등 학습 이미지를 인위적으로 수정함으로써 개발자는 모델이 편향된 부수적인 세부 사항에 의존하지 않고 보다 강력한 기능을 학습하도록 할 수 있습니다.

다음 예는 교육 중에 증강을 적용하는 방법을 보여줍니다. Ultralytics YOLO11 을 사용하여 물체의 방향 또는 조명 조건과 관련된 편향을 완화하는 방법 편향을 완화하는 방법을 보여줍니다:

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
    data="coco8.yaml",
    epochs=5,
    fliplr=0.5,  # 50% probability of flipping image horizontally
    hsv_v=0.4,  # Vary image brightness (value) by +/- 40%
)

데이터 세트 품질을 사전에 관리하고 다음과 같은 도구를 사용하여 증강 하이퍼파라미터와 같은 도구를 사용하여 엔지니어는 책임감 있는 책임감 있는 AI 모두를 위해 안정적으로 작동하는 시스템을 구축할 수 있습니다. 공정성 메트릭에 대한 자세한 내용은 다음과 같은 리소스를 참조하세요. IBM의 AI Fairness 360은 우수한 오픈 소스 툴킷을 제공합니다.

데이터 세트 편향

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

데이터 세트 편향의 일반적인 원인

실제 사례 및 영향

데이터 세트 편향 vs. 알고리즘 편향

완화 전략

이 카테고리에서 더 읽어보기

인간이 개입하는 주석 작업이 핵심인 이유 이해하기

데이터셋 증류란 무엇인가? 간략한 개요

오클리 메타 AI 안경은 비전 AI로 안경의 개념을 재정의하고 있습니다

Ultralytics 커뮤니티 가입