Yolo 비전 선전
선전
지금 참여하기

데이터셋 증류란 무엇인가? 간략한 개요

Abirami Vina

5분 분량

2025년 12월 12일

데이터셋 증류가 대규모 데이터셋을 소규모의 최적화된 합성 샘플 집합으로 대체함으로써 모델 훈련 속도를 높이고 컴퓨팅 비용을 절감하는 방법을 알아보세요.

모델 훈련은 데이터 과학자의 업무 중 가장 시간이 많이 소요되는 부분처럼 보일 수 있습니다. 그러나 실제로 그들의 시간 대부분, 종종 60~80%는 데이터 준비 작업에 투입됩니다: 데이터를 수집하고, 정리하고, 모델링을 위해 체계화하는 과정이죠. 데이터 세트가 커질수록 이러한 준비 시간도 증가하여 실험 속도를 늦추고 반복 작업을 어렵게 만듭니다.

이를 해결하기 위해 연구자들은 수년간 훈련 과정을 간소화할 방법을 모색해왔다. 합성 데이터, 데이터셋 압축, 향상된 최적화 기법과 같은 접근법들은 모두 대규모 데이터셋 작업의 비용과 마찰을 줄이고 머신러닝 워크플로우를 가속화하는 것을 목표로 한다.

이것이 제기하는 핵심 질문은 데이터셋을 대폭 축소하면서도 전체 데이터로 모델을 훈련할 때와 동일한 성능을 달성할 수 있는지 여부다. 데이터셋 증류는 이를 위한 유망한 해법 중 하나다. 

이 기술은 모델이 효과적으로 학습해야 하는 핵심 패턴을 보존하면서 대규모 훈련 데이터셋의 압축 버전을 생성합니다. 이를 통해 더 빠른 훈련, 낮은 컴퓨팅 요구량, 그리고 더 효율적인 실험이 가능해집니다. 마치 모델을 위한 학습 요약 노트처럼, 전체 데이터셋과 동일한 핵심 패턴을 가르치도록 설계된 소량의 합성 데이터 예시 집합이라고 생각할 수 있습니다.

이 글에서는 데이터셋 증류가 어떻게 작동하는지, 그리고 실제 응용 분야에서 확장 가능한 머신러닝과 딥러닝을 어떻게 지원하는지 살펴보겠습니다. 시작해 보겠습니다!

데이터셋 증류 이해하기

데이터셋 증류는 대규모 훈련 데이터셋을 훨씬 작은 데이터 집합으로 압축하는 과정으로, 이 축소된 데이터셋은 원본 데이터셋과 거의 동일한 정보를 모델에 학습시킵니다. 많은 연구자들은 이 과정을 데이터셋 응축이라고도 부르는데, 이는 전체 데이터셋에 걸쳐 나타나는 핵심 패턴을 포착하는 것이 목표이기 때문입니다. 

정제된 데이터셋은 무작위로 생성된 합성 데이터나 실제 이미지에서 단순히 작은 부분집합을 추출한 것과 다릅니다. 이는 무작위 가짜 데이터셋이나 원본의 잘린 사본이 아닙니다. 

대신 가장 중요한 패턴을 포착하도록 의도적으로 최적화됩니다. 이 과정에서 모든 픽셀과 특징이 조정 및 최적화되어, 증류된 데이터로 훈련된 신경망이 마치 전체 데이터셋으로 훈련된 것처럼 학습할 수 있게 합니다.

이 아이디어는 2018년 통저우 왕(Tongzhou Wang), 준얀 주(Jun-Yan Zhu), 안토니오 토랄바(Antonio Torralba), 알렉세이 에프로스(Alexei A. Efros)의 arXiv 논문에서 처음 등장했습니다. 초기 테스트는 MNISTCIFAR-10과 같은 간단한 데이터셋을 사용했는데, 이는 소수의 증류된 샘플이 수천 개의 실제 이미지를 대체할 수 있음을 쉽게 보여줄 수 있었습니다. 

그림 1. 이미지 데이터에 대한 데이터셋 증류 활용 (출처)

그 이후로 후속 연구를 통해 데이터셋 증류 기술이 더욱 발전해 왔으며, ICML과 ICLR에서 발표된 방법들을 포함해 압축 과정을 더욱 효율적이고 확장 가능하게 만드는 기술들이 등장했다.

데이터셋 증류의 중요성

데이터셋 증류는 훈련 효율을 개선하고 개발 주기를 단축시킵니다. 모델이 학습해야 하는 데이터 양을 줄임으로써 계산 요구 사항을 낮춥니다. 

이는 특히 시간이 지남에 따라 모델이 업데이트되는 지속적 학습, 다양한 모델 설계를 테스트하는 신경망 구조 탐색, 제한된 메모리와 전력을 가진 소형 장치에서 모델을 실행하는 엣지 트레이닝에 유용합니다. 전반적으로 이러한 장점들로 인해 데이터셋 증류는 다양한 머신러닝 워크플로우 전반에 걸쳐 신속한 초기화, 빠른 미세 조정, 초기 프로토타입 구축을 위한 훌륭한 선택지가 됩니다.

데이터셋 증류의 작동 방식 개요

데이터셋 증류는 합성 또는 인공적으로 생성된 훈련 샘플을 생성합니다. 이러한 샘플은 실제 데이터로 모델을 훈련시키는 것과 유사한 방식으로 모델이 학습하도록 돕습니다. 이는 일반적인 훈련 과정에서 세 가지 핵심 요소를 추적함으로써 작동합니다. 

첫 번째는 손실 함수로, 모델의 예측이 얼마나 잘못되었는지를 보여주는 오차 점수입니다. 두 번째는 모델 매개변수로, 학습 과정에서 업데이트되는 네트워크의 내부 가중치입니다. 

세 번째는 훈련 경로로, 시간이 지남에 따라 오차와 가중치가 단계별로 어떻게 변화하는지 설명합니다. 그런 다음 합성 샘플을 최적화하여 모델이 이를 기반으로 훈련할 때 오차가 감소하고 가중치가 전체 데이터셋과 동일한 방식으로 업데이트되도록 합니다.

데이터셋 증류의 단계별 살펴보기

데이터셋 증류 과정이 어떻게 작동하는지 자세히 살펴보겠습니다: 

  • 1단계 - 합성 픽셀 초기화: 학습 가능한 입력으로 작용하는 합성 이미지로 프로세스가 시작됩니다. 처음에는 이러한 이미지가 구조가 거의 없고 백지 상태처럼 보입니다. 시간이 지남에 따라 정보가 풍부한 예시로 최적화됩니다.
  • 2단계 - 기울기 일치 및 역전파를 통한 최적화: 모델이 이러한 합성 이미지로 학습할 , 실제 데이터의 훈련 행동과 더 잘 일치하도록 각 픽셀이 어떻게 변경되어야 하는지를 나타내는 기울기를 생성합니다. 역전파는 네트워크가 실수로부터 학습하는 방법입니다. 오류를 모델을 거꾸로 전달하여 어떤 픽셀과 가중치가 오류를 유발했는지 파악한 후, 이를 약간씩 업데이트합니다. 이러한 기울기를 활용하여 역전파는 합성 이미지를 단계별로 조정하여 훈련에 더 유용한 정보를 제공하도록 만듭니다.
  • 단계 3 - 훈련 단계 간 행동 일치: 이 방법은 또한 훈련 궤적을 일치시킵니다. 즉, 모델이 학습 과정에서 단계별로 겪는 변화를 의미합니다. 이는 추출된 데이터셋이 모델을 전체 데이터셋으로 학습할 때와 유사한 학습 경로로 안내하도록 보장합니다.
  • 4단계 - 검증 및 일반화: 마지막으로, 정제된 데이터셋을 실제 검증 데이터에 적용하여 훈련된 모델이 새로운 예시에 얼마나 잘 대응하는지 평가합니다. 이는 합성 데이터가 특정 샘플을 암기하게 하는 대신 광범위하고 기능적인 패턴을 가르치는지 확인하는 과정입니다.
그림 2. 데이터셋 증류 살펴보기 (출처)

핵심 데이터셋 증류 방법론 

모든 데이터셋 증류 기법은 서로 다른 알고리즘을 사용하더라도 동일한 핵심 개념을 바탕으로 구축됩니다. 대부분의 접근법은 성능 일치, 분포 일치, 매개변수 일치라는 세 가지 범주로 분류됩니다.

다음으로 각각을 살펴보고 어떻게 작동하는지 알아보겠습니다.

성능 매칭

데이터셋 증류에서의 성능 일치(Performance matching)는 모델이 전체 원본 데이터셋으로 훈련했을 때와 거의 동일한 정확도를 달성할 수 있도록 작고 최적화된 훈련 세트를 생성하는 데 중점을 둡니다. 무작위 부분 집합을 선택하는 대신, 증류된 샘플은 이를 통해 훈련된 모델이 원본 데이터셋으로 훈련된 모델과 유사한 예측, 훈련 중 유사한 손실 행동, 또는 유사한 최종 정확도를 갖도록 최적화됩니다. 

메타 학습은 이 과정을 개선하기 위해 흔히 사용되는 방법이다. 증류된 데이터셋은 반복적인 훈련 에피소드를 통해 업데이트되므로 다양한 가능한 상황에서 효과적으로 작동하게 된다. 

이러한 과정 동안, 본 방법은 학생 모델이 현재 증류된 샘플로부터 학습하는 방식을 시뮬레이션하고, 실제 데이터에서 해당 학생 모델의 성능을 평가한 후, 더 나은 교사 역할을 할 수 있도록 증류된 샘플을 조정합니다. 시간이 지남에 따라 증류된 데이터 세트는 학생 모델이 서로 다른 초기 가중치로 시작하거나 다른 아키텍처를 사용하더라도 빠른 학습과 강력한 일반화 능력을 지원하도록 학습합니다. 이는 증류된 데이터 세트의 신뢰성을 높이고 단일 훈련 실행에 의존하지 않도록 합니다.

그림 3. 메타학습 과정 (출처)

분포 일치 기법

한편, 분포 매칭은 실제 데이터 세트의 통계적 패턴과 일치하는 합성 데이터를 생성합니다. 이 접근법은 모델의 최종 정확도에만 집중하기보다는, 신경망이 학습 과정에서 생성하는 내부 특징에 초점을 맞춥니다.

다음으로, 유통 매칭을 주도하는 두 가지 기법을 살펴보겠습니다.

단일층 분포 일치

단일층 분포 일치(Single-layer distribution matching)는 신경망의 단일 층에 집중하여 실제 데이터와 합성 데이터에 대해 해당 층이 생성하는 특징을 비교합니다. 이러한 특징(활성화라고도 함)은 네트워크의 해당 지점에서 모델이 학습한 내용을 포착합니다. 

합성 데이터가 유사한 활성화 패턴을 생성하도록 함으로써, 이 방법은 증류된 데이터셋이 원본 데이터셋과 동일한 중요한 패턴을 반영하도록 유도합니다. 실제로는 선택된 레이어의 활성화가 실제 이미지에서 나온 활성화와 근접하게 일치할 때까지 합성 샘플을 반복적으로 업데이트합니다. 

이 접근법은 한 번에 하나의 표현 수준만 정렬하기 때문에 비교적 간단합니다. 특히 깊고 다단계의 특징 계층 구조를 일치시킬 필요가 없는 소규모 데이터셋이나 작업에서 효과적입니다. 단일 레이어 매칭은 하나의 특징 공간을 명확히 정렬함으로써, 증류된 데이터셋으로 학습할 때 안정적이고 의미 있는 신호를 제공합니다.

다층 분배 매칭

다중 계층 분포 매칭은 신경망의 단일 계층이 아닌 여러 계층에서 실제 데이터와 합성 데이터를 비교하는 개념을 기반으로 합니다. 서로 다른 계층은 초기 계층의 단순한 에지 및 텍스처부터 깊은 계층의 형태 및 더 복잡한 패턴에 이르기까지 다양한 종류의 정보를 포착합니다. 

이러한 계층 간 특징을 매칭함으로써, 증류된 데이터셋은 모델이 다중 수준에서 학습한 내용을 반영하도록 유도됩니다. 네트워크 전반에 걸쳐 특징을 정렬하기 때문에, 이 접근법은 모델이 클래스를 구분하는 데 의존하는 풍부한 신호를 합성 데이터가 보존하도록 돕습니다. 

이는 특히 컴퓨터 비전, 즉 모델이 이미지와 동영상을 이해하도록 학습하는 작업에서 유용한데, 유용한 패턴들이 여러 계층에 걸쳐 분포되어 있기 때문이다. 특징 분포가 여러 깊이에서 잘 일치할 때, 증류된 데이터셋은 원본 훈련 데이터를 대체하는 더 강력하고 신뢰할 수 있는 대용품 역할을 한다.

매개변수 일치 방법

데이터셋 증류의 또 다른 핵심 범주는 매개변수 매칭이다. 정확도나 특징 분포를 맞추는 대신, 훈련 과정에서 모델의 가중치가 어떻게 변화하는지를 맞춘다. 증류된 데이터셋에 대한 훈련이 실제 데이터 훈련과 유사한 매개변수 업데이트를 생성하도록 함으로써, 모델은 거의 동일한 학습 경로를 따른다. 

다음으로 두 가지 주요 매개변수 매칭 방법을 살펴보겠습니다.

단일 단계 매칭

단일 단계 매칭은 실제 데이터로 단 한 번의 훈련 단계 후 모델 가중치에 발생하는 변화를 비교합니다. 이후 증류된 데이터셋은 단 한 단계 훈련 시 매우 유사한 가중치 업데이트를 생성하도록 조정됩니다. 이 방법은 단일 업데이트에만 집중하기 때문에 실행이 간단하고 빠릅니다.

단점은 한 단계가 전체 학습 과정을 반영하지 못한다는 점이며, 특히 모델이 풍부한 특징을 구축하기 위해 많은 업데이트가 필요한 어려운 작업에서는 더욱 그렇습니다. 이 때문에 단일 단계 매칭은 유용한 패턴을 빠르게 포착할 수 있는 단순한 문제나 소규모 데이터셋에서 가장 효과적으로 작동하는 경향이 있습니다.

다단계 매개변수 매칭

반면, 다단계 매개변수 매칭은 모델의 가중치가 한 번의 학습 단계가 아닌 여러 단계에 걸쳐 어떻게 변화하는지 살펴봅니다. 이러한 업데이트의 연속이 바로 모델의 학습 궤적입니다. 

증류된 데이터셋은 모델이 합성 샘플로 훈련할 때 그 학습 경로가 실제 데이터에서 취했을 경로를 밀접하게 따르도록 구축됩니다. 더 긴 학습 구간을 일치시킴으로써, 증류된 데이터셋은 원본 훈련 과정의 구조를 더 많이 포착합니다.

다단계 매칭은 학습이 시간에 따라 전개되는 방식을 반영하기 때문에, 모델이 유용한 패턴을 포착하기 위해 많은 업데이트가 필요한 대규모 또는 복잡한 데이터셋에서 일반적으로 더 효과적입니다. track 단계를 track 하므로 더 많은 계산이 필요하지만, 단일 단계 매칭보다 더 잘 일반화되고 더 나은 성능을 제공하는 정제된 데이터셋을 생성하는 경우가 많습니다.

합성 데이터셋 생성 및 최적화 작동 방식

주요 증류 접근법을 더 잘 이해한 후, 이제 합성 데이터가 어떻게 생성되는지 살펴볼 수 있습니다. 데이터셋 증류에서는 합성 샘플이 가장 중요한 학습 신호를 포착하도록 최적화되므로, 소규모 데이터셋으로도 훨씬 더 큰 데이터셋을 대체할 수 있습니다. 

다음으로, 이 정제된 데이터가 어떻게 생성되고 평가되는지 살펴보겠습니다.

정제된 이미지 생성 및 평가

데이터셋 증류 과정에서 합성 픽셀은 다수의 훈련 단계를 거쳐 업데이트됩니다. 신경망은 현재의 합성 이미지로부터 학습하고, 각 픽셀이 실제 데이터셋의 패턴에 더 잘 부합하도록 어떻게 변화해야 하는지를 보여주는 기울기 기반 피드백을 전송합니다. 

이것이 가능한 이유는 과정이 미분 가능하기 때문입니다(즉, 모든 단계가 매끄럽고 명확하게 정의된 기울기를 가지므로, 작은 픽셀 변화가 손실 함수의 예측 가능한 변화로 이어집니다). 이를 통해 모델은 기울기 하강법 동안 합성 데이터를 부드럽게 조정할 수 있습니다.

최적화가 진행됨에 따라 합성 이미지는 모델이 인식하는 형태와 질감을 포함한 의미 있는 구조를 형성하기 시작합니다. 이러한 정제된 합성 이미지는 분류기가 학습해야 하는 핵심 시각적 단서를 포착하기 때문에 이미지 분류 작업에 자주 활용됩니다.

증류된 데이터셋은 실제 데이터로 훈련된 모델과 비교하여 평가된다. 연구자들은 검증 정확도를 측정하고, 합성 데이터셋이 클래스 구분에 필요한 판별적 특징(모델이 한 클래스와 다른 클래스를 구분하는 데 의존하는 패턴이나 신호)을 보존하는지 확인한다. 또한 안정성과 일반화 능력을 테스트하여 증류된 데이터가 과적합을 유발하지 않는지 검증한다.

데이터 증류의 실제 적용 사례

다음으로, 정제된 데이터셋이 어떻게 훈련 속도를 높이고 컴퓨팅 비용을 절감하면서도 강력한 성능을 유지하는지 보여주는 사례를 자세히 살펴보겠습니다. 이는 데이터가 제한적이거나 매우 특화된 경우에도 마찬가지입니다.

컴퓨터 비전 애플리케이션을 위한 데이터셋 증류 활용

컴퓨터 비전의 목표는 이미지나 동영상 같은 시각적 데이터를 이해하도록 모델을 훈련시키는 것이다. 이러한 모델들은 경계선, 질감, 형태, 물체 등의 패턴을 학습한 후, 이를 이미지 분류, 물체 탐지, 분할 같은 작업에 활용한다. 비전 문제는 조명, 배경, 시점 등에서 매우 다양한 변수를 포함하는 경우가 많기 때문에, 컴퓨터 비전 시스템은 일반적으로 효과적인 일반화를 위해 방대한 데이터셋이 필요하다. 이로 인해 훈련 과정이 비용이 많이 들고 느려진다.

그림 4. 데이터셋 증류의 예시 (출처)

의료 영상, 야생동물 모니터링, 공장 불량품 검출과 같은 이미지 분류 사용 사례에서는 모델이 정확도와 훈련 비용 사이에서 어려운 절충점을 마주하는 경우가 많습니다. 이러한 작업은 일반적으로 방대한 데이터셋을 필요로 합니다.

데이터셋 증류는 분류기에 가장 중요한 시각적 단서를 여전히 포함하는 소량의 합성 이미지로 원본 훈련 세트를 압축할 수 있습니다. ImageNet 같은 대규모 벤치마크에서 원본 이미지의4.2%만을 사용한 증류 세트가 강력한 분류 정확도를 유지하는 것으로 입증되었습니다. 이는 소량의 합성 대리 데이터가 훨씬 적은 컴퓨팅 자원으로 수백만 개의 실제 샘플을 대체할 수 있음을 의미합니다.

신경망 구조 탐색 

신경망 아키텍처 검색(NAS)은 특정 작업에 가장 적합한 신경망 설계를 찾기 위해 수많은 가능성 있는 설계들을 자동으로 탐색하는 기법이다. NAS는 다수의 후보 모델을 훈련하고 평가해야 하기 때문에, 전체 데이터셋에서 실행할 경우 속도가 느려지고 매우 많은 계산 자원을 소모할 수 있다. 

데이터셋 증류는 원본 데이터의 주요 학습 신호를 여전히 포함하는 소규모 합성 훈련 세트를 생성함으로써 각 후보 아키텍처를 훨씬 빠르게 테스트할 수 있게 합니다. 이를 통해 NAS는 우수한 아키텍처와 열악한 아키텍처의 순위를 합리적으로 신뢰할 수 있게 유지하면서 설계들을 효율적으로 비교할 수 있으며, 최종 모델 품질을 크게 저하시키지 않으면서 탐색 비용을 절감합니다.

지속적인 학습과 에지 배포

지속적 학습 시스템은 단일 훈련이 아닌 새로운 데이터가 도착할 때마다 지속적으로 업데이트되는 모델을 의미하며, 빠르고 메모리 효율적인 업데이트가 필요하다. 카메라, 휴대폰, 센서와 같은 에지 디바이스는 제한된 컴퓨팅 및 저장 용량으로 인해 유사한 제약에 직면한다. 

데이터셋 증류는 대규모 훈련 세트를 소규모 합성 데이터셋으로 압축함으로써 두 경우 모두에 도움이 됩니다. 이를 통해 모델은 전체 데이터셋 대신 소규모 리플레이 세트를 사용하여 적응하거나 재훈련할 수 있습니다. 예를 들어 커널 기반 메타 러닝 연구에서는 단 10개의 증류 샘플만으로도 표준 이미지 분류 벤치마크인 CIFAR-10에서 64% 이상의 정확도를 달성할 수 있음을 보여주었습니다. 리플레이 세트가 매우 간결하기 때문에 업데이트가 훨씬 빠르고 실용적으로 이루어집니다. 특히 모델을 자주 갱신해야 할 때 더욱 그렇습니다.

데이터셋 증류는 대규모 언어 모델에 대해 지식 증류와 병행하여 작동할 수도 있습니다. 소규모 증류 데이터셋은 교사 모델로부터 가장 중요한 작업 신호를 유지할 수 있으므로, 압축된 학생 모델을 성능 손실 없이 더 효율적으로 훈련하거나 갱신할 수 있습니다. 이러한 데이터셋은 규모가 매우 작기 때문에 저장 공간과 연산 능력이 제한적이지만 업데이트 후에도 모델의 정확도를 유지해야 하는 에지 또는 온디바이스 환경에서 특히 유용합니다.

데이터 증류의 장단점

데이터셋 증류(distillation) 사용의 장점은 다음과 같습니다:

  • 빠른 실험에 아주 좋습니다. 매번 방대한 데이터셋으로 재훈련하지 않고도 새로운 아키텍처, 손실 함수 또는 하이퍼파라미터를 테스트할 수 있습니다.
  • 잠재적인 개인정보 보호 이점. 정제된 합성 샘플을 공유하는 것은 실제 사용자 데이터 포인트를 공유하는 것보다 안전할 수 있습니다. 원본 예시가 직접 노출되지 않기 때문입니다.
  • 단순한 부분집합 선택보다 종종 더 강력합니다. 단순히 예시를 선택하는 대신, 증류는 정보를 최대한 전달하도록 예시를 능동적으로 최적화합니다.

데이터셋 증류는 여러 장점을 제공하지만, 다음과 같은 제한 사항을 염두에 두어야 합니다:

  • 과적합: 증류된 데이터는 증류 과정에서 사용된 아키텍처에 가장 잘 작동하는 경우가 많으며, 매우 다른 모델로 이식할 때 성능이 저하될 수 있습니다.
  • 하이퍼파라미터에 민감합니다. 학습률, 초기화, 또는 증류 단계 수와 같은 요소에 따라 결과가 크게 달라질 수 있습니다.
  • 실제 세계의 복잡성에 확장하기 어렵다. 벤치마크에서는 잘 작동하는 방법도 대규모, 복잡하거나 고해상도 데이터셋에서는 정확도를 잃을 수 있다.

주요 내용

데이터셋 증류는 소량의 합성 샘플로도 완전한 데이터셋에 버금가는 효과를 내며 모델을 학습시킬 수 있게 합니다. 이를 통해 머신러닝은 더 빠르고 효율적이며 확장하기 쉬워집니다. 모델이 성장하고 더 많은 데이터가 필요해질수록, 증류된 데이터셋은 정확도를 저하시키지 않으면서 컴퓨팅 비용을 절감할 수 있는 실용적인 방법을 제공합니다. 

우리 커뮤니티에 가입하고 GitHub 저장소를 확인하여 AI에 대해 더 알아보세요. 자신만의 비전 AI 프로젝트를 구축하려는 경우, 우리의 라이선싱 옵션을 확인해 보세요. 솔루션 페이지를 방문하여 의료 분야의 AI소매업의 비전 AI와 같은 응용 분야에 대해 더 알아보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기