AI에서 데이터 세트 편향을 식별하고 완화하여 실제 애플리케이션을 위한 공정하고 정확하며 신뢰할 수 있는 머신 러닝 모델을 보장하는 방법을 알아보세요.
데이터 세트 편향이란 머신러닝 모델을 학습하는 데 사용되는 정보의 체계적인 오류나 불균형으로 인해 머신 러닝(ML) 모델을 학습하는 데 사용되는 정보의 체계적인 오류 또는 불균형을 의미하며, 그 결과 실제 환경을 정확하게 반영하지 못하는 시스템을 의미합니다. 다음과 같은 맥락에서 컴퓨터 비전(CV)의 경우, 모델은 전적으로 학습 데이터에 기반하여 패턴을 인식하는 방법을 학습합니다. 만약 특정 인구 통계나 환경 조건을 과도하게 나타내는 등 이 기반이 왜곡된 경우 모델은 이러한 사각지대를 '상속'하게 됩니다. 이러한 현상은 일반화가 제대로 이루어지지 않는 주요 원인입니다. AI 시스템이 테스트에서는 잘 작동하지만 실제 배포 시에는 실패하는 경우 다양한 시나리오에서 실시간 추론에 실패하는 주요 원인입니다.
편견이 어디서 시작되는지 이해하는 것이 예방의 첫걸음입니다. 편견은 종종 초기 단계에서 데이터 수집 및 주석 데이터 수집 및 주석 프로세스의 초기 단계에서 종종 발생합니다:
데이터 세트 편향의 결과는 사소한 불편함에서 중대한 안전 실패에 이르기까지 다양합니다. 심각한 안전 실패로 이어질 수 있습니다.
종종 함께 논의되지만, 데이터 세트 편향은 다음과 같이 구분하는 것이 도움이 됩니다. 알고리즘 편향과 구별하는 것이 좋습니다.
두 가지 모두 AI의 편향성이라는 더 광범위한 문제에 기여합니다. 이 문제를 해결하는 것은 AI 윤리와 AI 공정성의 공정성의 핵심입니다.
개발자는 편향을 식별하고 줄이기 위해 여러 가지 기술을 사용할 수 있습니다. 합성 데이터 활용 합성 데이터를 활용하면 실제 데이터가 부족한 부족한 부분을 채울 수 있습니다. 또한, 엄격한 모델 평가를 통해 전체 평균이 아닌 하위 그룹별 성과를 세분화하는 엄격한 모델 평가를 통해 숨겨진 결함을 발견할 수 있습니다.
또 다른 강력한 방법은 데이터 증강입니다. 개발자는 색상, 회전 또는 조명을 변경하는 등 학습 이미지를 인위적으로 수정함으로써 개발자는 모델이 편향된 부수적인 세부 사항에 의존하지 않고 보다 강력한 기능을 학습하도록 할 수 있습니다.
다음 예는 교육 중에 증강을 적용하는 방법을 보여줍니다. Ultralytics YOLO11 을 사용하여 물체의 방향 또는 조명 조건과 관련된 편향을 완화하는 방법 편향을 완화하는 방법을 보여줍니다:
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
data="coco8.yaml",
epochs=5,
fliplr=0.5, # 50% probability of flipping image horizontally
hsv_v=0.4, # Vary image brightness (value) by +/- 40%
)
데이터 세트 품질을 사전에 관리하고 다음과 같은 도구를 사용하여 증강 하이퍼파라미터와 같은 도구를 사용하여 엔지니어는 책임감 있는 책임감 있는 AI 모두를 위해 안정적으로 작동하는 시스템을 구축할 수 있습니다. 공정성 메트릭에 대한 자세한 내용은 다음과 같은 리소스를 참조하세요. IBM의 AI Fairness 360은 우수한 오픈 소스 툴킷을 제공합니다.