민감한 훈련 데이터를 선택적으로 제거하는 ‘머신 언러닝’ 기술을 살펴보세요. Ultralytics 통해 GDPR 규정 준수 및 데이터 프라이버시를 보장하는 방법을 알아보세요.
머신 언러닝 (machine unlearning )은 머신 러닝의 새로운 하위 분야로, 훈련된 모델에서 특정 훈련 데이터 집합의 영향을 제거하는 데 중점을 둡니다. 모델이 방대한 양의 정보를 처리함에 따라, 데이터를 선택적으로 "잊어버리는" 능력은 매우 중요해졌습니다. 이 과정을 통해 개발자는 전체 아키텍처를 처음부터 다시 훈련할 필요 없이 특정 데이터 포인트를 추출할 수 있어, 상당한 시간과 연산 부하를 절감할 수 있습니다.
이 기술의 주된 동인은 데이터 개인정보 보호입니다. GDPR의 ‘잊혀질 권리’와 같은 엄격한 데이터 보호 규정 및 의무 조항이도입됨에 따라, 사용자는 자신의 개인정보 삭제를 요청할 법적 권리를 갖게 되었습니다. 머신 언러닝은 딥러닝 모델에서 이러한 데이터를 안전하게 제거할 수 있는 방법을 제공함으로써, 모델의 전반적인 유용성을 유지하면서도 규정 준수를 보장합니다.
기존의 경사 하강법 메커니즘은 훈련 데이터를 네트워크의 가중치와 깊이 얽혀 있게 만듭니다. 이 때문에 데이터베이스에서 원본 이미지나 텍스트 파일을 단순히 삭제한다고 해서 모델 자체에서 학습된 패턴이 제거되지는 않습니다. 기계 학습 제거 기법은 일반적으로 정확한 학습 제거와 근사적 학습 제거, 두 가지 범주로 나뉩니다. 정확한 언러닝은 최종 모델이 잊혀진 데이터를 전혀 사용하지 않고 훈련된 모델과 통계적으로 동일함을 보장하며, 이는 대개 정교한 데이터셋 분할을 통해 달성됩니다. 효율적인 언러닝 알고리즘에 관한 최근 연구에서 자주 논의되는 근사적 언러닝은 수학적 개입을 사용하여 모델의 매개변수를 조정하고 대상 데이터의 영향을 소급적으로 차단합니다.
머신 언러닝과 지속적 학습을 구분하는 것이 중요합니다. 지속적 학습은 치명적인 망각 현상을 겪지 않으면서 새로운 지식을 순차적으로 축적하는 것을 목표로 하는 반면, 언러닝은 의도적이고 목표 지향적인 지식 제거 과정입니다. 알고리즘 공정성에 주목하는 조직들은 또한 훈련 후 유해하거나 왜곡된 데이터를 정제함으로써 AI 내의 편향을 바로잡기 위해 언러닝을 활용합니다.
‘언러닝(unlearning)’ 알고리즘은 이론적인 AI 안전 연구 단계에서 벗어나 다양한 산업 분야에서의 실제 적용 단계로 빠르게 진전되었습니다.
직접적이고 단일 단계로 이루어지는 언러닝 API는 여전히 머신 언러닝 과제 분야에서 활발히 연구되고 있지만, 실무자들은 종종 정제된 데이터셋을 선별하고 신속한 재훈련 주기를 시작함으로써 정확한 언러닝 기준선을 달성합니다. 클라우드 기반 데이터 관리를 위해 Ultralytics 사용할 경우, 데이터셋에 버전을 쉽게 관리하여 삭제된 데이터를 제외할 수 있습니다.
다음은 정제된 데이터셋을 사용하여 Ultralytics 재훈련함으로써 ‘재학습을 통한 기존 지식 제거(unlearning)’의 기본적인 접근 방식을 보여주는 간단한 Python :
from ultralytics import YOLO
# Load an existing, pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Naive exact unlearning: perform efficient retraining on a sanitized dataset.
# The 'sanitized_data.yaml' excludes the specific sensitive data to be "unlearned"
results = model.train(data="sanitized_data.yaml", epochs=50, device="cuda")
신경망 모델의 최적화와 견고성에 대한수요가 증가함에 따라, ‘언러닝(unlearning)’은 이제 필수 요건으로 자리 잡고 있습니다. 복잡한 이미지 분류 파이프라인을 관리하든, 에지에 모델을 배포하든, 데이터를 책임감 있게 잊어버리는 메커니즘을 통합하면 AI 시스템이 규정 준수, 공정성, 신뢰성을 유지할 수 있습니다.