YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Data Leakage

머신 러닝에서 데이터 누수(data leakage)가 무엇인지 살펴보고 이를 방지하는 방법을 알아보십시오. Ultralytics YOLO 파이프라인을 안전하게 유지하기 위한 모범 사례를 확인하십시오.

머신러닝(ML)에서의 데이터 누출은 학습 데이터 외부의 정보가 모델 생성에 부적절하게 사용될 때 발생합니다. 이러한 숨겨진 알고리즘적 결함은 학습 및 모델 테스트 과정에서 탁월한 성능을 보이는 것 같은 착각을 일으키지만, 모델이 실제 환경의 보지 못한 데이터와 마주할 때 심각한 일반화 실패를 초래합니다. 데이터 누출이 무단 데이터 노출을 의미하는 전통적인 사이버 보안 정의와 달리, 머신러닝에서의 데이터 누출 정의는 전적으로 학습 오염 및 예측 무결성 훼손에 초점을 맞춥니다.

Link to this section데이터 누출이 발생하는 방식#

머신러닝에서 데이터 누출이 무엇인지 이해하려면, 현대적인 파이프라인에서 이러한 실패 지점이 나타나는 두 가지 주요 메커니즘을 살펴보는 것이 도움이 됩니다.

  • 학습-테스트 오염: 이는 테스트 데이터가 우연히 학습 세트로 유입될 때 발생합니다. 흔한 원인으로는 데이터 전처리(정규화 또는 평균값 계산 등)를 변환을 독립적으로 적용하는 대신 데이터 세트 전체를 분할하기 전에 수행하는 경우가 있습니다.
  • 타겟 누출: 이는 예측 피처에 추론 시점에는 논리적으로 사용할 수 없는 정보가 포함될 때 발생합니다. 예를 들어, 타겟 변수의 직접적인 결과인 피처를 포함하면 모델에게 정답지를 미리 제공하는 것과 같습니다.

Link to this section데이터 누출의 실제 사례#

누출을 식별하고 방지하는 방법을 이해하는 것은 신뢰할 수 있는 AI를 구축하는 데 필수적입니다. 이 개념이 실제 프로덕션 배포를 어떻게 방해하는지에 대한 구체적인 사례 두 가지를 소개합니다.

  • 의료 분야의 AI: 의료 기관이 환자의 엑스레이를 사용하여 폐 질환을 감지하는 알고리즘을 학습시키는데, 양성 스캔 데이터 모두에 진단 의사가 부착한 수술용 마커가 포함되어 있다면 타겟 누출이 발생합니다. 모델은 질병의 생물학적 징후 대신 단순히 수술용 마커를 식별하는 법을 학습하게 됩니다.
  • 컴퓨터 비전 비디오 분석: 행동 인식과 같은 시각적 작업에서 인접한 비디오 프레임을 학습 및 검증 세트로 무작위로 분할하면 엄청난 학습-테스트 오염이 발생합니다. 연속된 프레임은 거의 동일하기 때문에, 모델은 복잡한 인간의 행동을 학습하는 대신 중복되는 배경을 암기하게 되며, 이는 표준 OpenAI 모델 평가 관행을 위반하는 것입니다.

Link to this section데이터 누출 방지 및 보호#

데이터 누출 보호는 엔지니어링 수명 주기 전반에 걸쳐 철저한 데이터 위생을 유지하고 구조화된 환경을 활용하는 데 의존합니다.

  • 엄격한 데이터 분할: 엄격한 시간순 또는 그룹화된 데이터 분할을 구현하여 중복된 샘플이나 시계열 데이터가 경계를 넘지 않도록 보장하십시오. 이는 AWS 머신러닝 문서에서 매우 강조하는 방법론입니다.
  • 교차 검증 전략: scikit-learn 검증 가이드라인에서 권장하는 바와 같이, 데이터 스케일링과 피처 엔지니어링이 각 학습 폴드 내에서 엄격하게 제한되는 강력한 검증 기법을 사용하십시오.
  • Ultralytics 플랫폼 데이터 세트 관리: 클라우드 기반 비전 도구를 활용하면 데이터 세트 경계를 안전하게 분할할 수 있습니다. Ultralytics YOLO26은 엄격한 데이터 세트 구성을 준수하며, 학습 단계에서 모델이 실수로 검증 이미지에 접근하지 못하도록 보장합니다.
from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model using a strict dataset configuration (data.yaml)
# The YAML file enforces rigid, isolated paths for 'train' and 'val' directories,
# ensuring data leakage protection between the learning and evaluation phases.
results = model.train(data="dataset.yaml", epochs=50, imgsz=640)

Link to this section데이터 누출과 관련 개념의 차이점#

데이터 사이언스와 사이버 보안 간에는 용어가 중복되는 경우가 많으므로, 데이터 누출을 밀접하게 관련된 개념들과 구별하는 것이 중요합니다.

  • 과적합: 두 문제 모두 모델이 프로덕션에서 실패하게 만들지만, 과적합은 모델이 유효하고 독립된 학습 세트 내의 자연적인 노이즈를 암기했음을 의미합니다. 데이터 누출은 모델이 테스트 정답에 부정하게 접근했음을 의미합니다.
  • 데이터 보안: IT 세계에서 데이터 누출 방지는 방화벽, 암호화, 엄격한 접근 제어를 사용하여 무단 데이터 노출을 방지하는 것을 의미합니다. 이는 기업 데이터 개인정보 보호 프레임워크에 해당합니다. 보안 기업들은 이 측면에 집중하며, Rapid7 위협 인텔리전스 또는 SecurityScorecard의 예방 개요를 통해 자세히 읽어볼 수 있습니다. 또는 Wiz의 데이터 보안 아카데미에서는 클라우드 오설정(misconfiguration)이 어떻게 이러한 노출로 이어지는지 설명하고 있는데, 이는 머신러닝에서 논의되는 알고리즘적 오염과는 완전히 다른 개념입니다.

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.