Yolo 비전 선전
선전
지금 참여하기
용어집

데이터 드리프트

머신 러닝에서 데이터 드리프트의 유형, 원인 및 해결책을 알아보세요. 강력한 AI 모델을 위해 데이터 드리프트를 detect 완화하는 방법을 알아보세요.

데이터 드리프트는 머신러닝(ML) 에서 발생하는 현상입니다. 프로덕션 환경에서 관찰된 입력 데이터의 통계적 특성이 원래 모델을 구축하는 데 사용된 학습 데이터에 비해 훈련 데이터와 비교하여 시간이 지남에 따라 변화하는 현상입니다. 모델이 배포될 때, 모델은 미래 데이터가 학습한 과거 데이터와 유사할 것이라는 가정에 의존합니다. 에서. 실제 환경의 변화로 인해 이 가정이 위반되면 모델의 정확성과 신뢰성이 크게 저하될 수 있습니다. 모델 자체는 변하지 않더라도 말입니다. 데이터 드리프트 감지 및 관리는 다음과 같은 기본적인 측면입니다. 머신 러닝 운영(MLOps)의 기본 요소로, 모델 배포 후에도 시스템이 계속해서 최적의 성능을 발휘하도록 보장합니다. 모델 배포.

데이터 드리프트 vs. 개념 드리프트

AI 시스템을 효과적으로 유지 관리하려면 데이터 드리프트를 밀접하게 관련된 용어인 개념과 구별하는 것이 중요합니다. 드리프트. 둘 다 성능 저하로 이어지지만 서로 다른 원인에서 비롯됩니다.

  • 데이터 드리프트(공변량 시프트): 입력 피처의 분포는 변경되지만 입력과 목표 출력 간의 근본적인 관계는 동일하게 유지될 때 발생합니다. 예를 들어 컴퓨터 비전(CV)의 경우, 낮에 촬영한 이미지로 모델을 학습시킬 수 있습니다. 모델을 학습시킬 수 있습니다. 프로덕션 카메라가 야간 이미지를 전송하기 시작하면 입력 분포는 드리프트되지만 감지되는 물체의 정의는 변경되지 않습니다.
  • 개념 드리프트: 대상 변수의 정의 자체가 변경될 때 발생합니다. 입력과 출력 사이의 입력과 출력 간의 관계가 변경될 때 발생합니다. 예를 들어 금융 사기 탐지 시스템 사기범들이 사용하는 수법은 시간이 지남에 따라 진화합니다. 어제 안전한 거래로 간주되었던 것이 오늘은 사기일 수 있습니다. 패턴일 수 있습니다. 자세한 내용은 개념의 변화

실제 애플리케이션 및 예시

데이터 드리프트는 다음과 같은 다양한 산업에 영향을 미칩니다. 인공 지능(AI) 이 적용되는 다양한 산업에 영향을 미칩니다.

  1. 자동화된 제조: 제조 환경에서의 제조 환경에서는 물체 감지 모델을 사용하여 결함을 식별하는 데 사용할 수 있습니다. 공장에서 캡처한 이미지의 색온도를 변경하는 새로운 LED 조명을 설치하면 캡처된 이미지의 색온도를 변화시키는 새로운 LED 조명을 설치하면 입력 데이터 분포가 바뀝니다. 이전 조명이 있는 이미지로 학습된 모델은 다음과 같은 문제가 발생할 수 있습니다. 데이터 드리프트가 발생하고 결함을 정확하게 식별하지 못하여 모델 유지보수.
  2. 자율 주행: 자율 주행 차량은 방대한 데이터로 학습된 인식 모델에 크게 의존합니다. 화창한 캘리포니아 도로에서 주로 훈련된 자동차가 눈이 많이 내리는 눈이 많이 내리는 지역에 배치되면 시각 데이터(입력)가 학습 세트와 크게 달라집니다. 이는 상당한 데이터 드리프트가 발생하여 잠재적으로 다음과 같은 안전 기능이 손상될 수 있습니다. 차선 감지. 웨이모와 같은 기업은 차량의 안전을 보장하기 위해 이러한 변화를 지속적으로 모니터링합니다. 안전을 보장하기 위해

드리프트 감지 및 완화

데이터 드리프트를 조기에 식별하면 모델이 자신은 있지만 잘못된 예측을 하는 '침묵의 실패'를 방지할 수 있습니다. 예측을 하는 '조용한 실패'를 방지합니다.

탐지 전략

  • 통계 테스트: 기술자는 종종 통계적 방법을 사용하여 새로운 데이터의 분포를 데이터의 분포를 비교하는 경우가 많습니다. 콜모고로프-스미르노프 콜모고로프-스미르노프 테스트 는 두 데이터 세트가 크게 다른지 확인하는 데 널리 사용되는 비모수 테스트입니다.
  • 성능 모니터링: 다음과 같은 메트릭 추적 정확도 리콜F1 점수와 같은 지표를 실시간으로 추적하면 드리프트를 파악할 수 있습니다. 이러한 지표가 가 예기치 않게 떨어지면 수신 데이터가 더 이상 모델의 학습된 패턴과 일치하지 않는 경우가 많습니다.
  • 시각화 도구: 다음과 같은 플랫폼 팀에서 데이터 시각화를 통해 데이터 분포와 손실 곡선을 시각화하여 이상 징후를 파악할 수 있습니다. 보다 포괄적인 모니터링을 위해서는 통합 가시성 도구 PrometheusGrafana와 같은 전문화된 통합 가시성 도구는 업계에서 널리 채택되고 있습니다.

완화 기술

  • 재교육: 가장 직접적인 해결책은 최근의 드리프트 데이터를 포함하는 새로운 데이터 세트를 사용하여 모델을 재학습하는 것입니다. 이렇게 하면 모델의 내부 경계를 현재 현실을 반영하도록 업데이트합니다.
  • 데이터 증강: 초기 훈련 단계에서는 강력한 데이터 증강 기술(예: 회전, 색상 지터, 노이즈 등)을 적용하면 조명 변화나 카메라의 움직임과 같은 사소한 드리프트에 대한 모델의 복원력을 높일 수 있습니다. 움직임에 더 탄력적으로 대응할 수 있습니다.
  • 도메인 적응: 여기에는 소스 도메인에서 학습된 모델을 다른 분포의 대상 도메인에서 잘 작동하도록 다른 분포를 가진 대상 도메인에서 잘 수행하도록 적응하도록 설계된 기술을 포함합니다. 이는 현재 활발히 연구되고 있는 전이 학습 연구 분야입니다.

사용 ultralytics 패키지를 사용하면 추론 중에 신뢰도 점수를 쉽게 모니터링할 수 있습니다. 알려진 클래스의 평균 신뢰도가 갑자기 또는 알려진 클래스에 대한 평균 신뢰도의 점진적인 하락은 데이터 드리프트의 강력한 선행 지표가 될 수 있습니다.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on a new image from the production stream
results = model("path/to/production_image.jpg")

# Inspect confidence scores; consistently low scores may indicate drift
for result in results:
    for box in result.boxes:
        print(f"Class: {box.cls}, Confidence: {box.conf.item():.2f}")

AI 라이프사이클에서의 중요성

데이터 드리프트 문제를 해결하는 것은 일회성 해결이 아니라 지속적인 프로세스입니다. 이를 통해 다음과 같은 프레임워크로 구축된 모델이 프레임워크로 구축된 모델 PyTorch 또는 TensorFlow 과 같은 기술은 부채로 남습니다. 클라우드 제공업체는 이를 자동화하기 위해 다음과 같은 관리형 서비스를 제공합니다. AWS SageMaker 모델 모니터Google 클라우드 버텍스 AI와 같은 관리형 서비스를 제공합니다. 드리프트 임계값을 위반할 때 엔지니어에게 경고를 보냅니다. 데이터 드리프트를 사전에 관리함으로써 조직은 높은 수준의 높은 수준의 AI 안전성과 운영 효율성을 유지할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기