디노이징을 위한 자기지도 학습: 단계별 분석
디노이징(denoising)을 위한 자기지도 학습(Self-supervised learning)의 작동 원리, 이미지가 노이즈가 발생하는 이유, 그리고 깨끗한 시각적 디테일을 복구하는 데 사용되는 핵심 방법과 단계를 확인해 보세요.

카메라가 항상 우리가 보는 방식대로 세상을 포착하는 것은 아닙니다. 저조도 환경에서 촬영한 인물 사진이나 빠르게 움직이는 자동차 사진은 입자가 거칠거나 흐릿하게 보이거나 왜곡될 수 있습니다.
느린 센서, 어두운 환경, 그리고 움직임은 이미지의 가장자리를 부드럽게 만들고 중요한 세부 정보를 가리는 미세한 노이즈를 발생시킬 수 있습니다. 이러한 선명도가 손실되면, 많은 스마트 시스템이 세부적인 디테일에 의존하여 작동하기 때문에 고급 AI 및 머신러닝 시스템조차 이미지에 무엇이 포함되어 있는지 파악하는 데 어려움을 겪을 수 있습니다.
예를 들어, 컴퓨터 비전은 기계가 이미지와 비디오를 해석할 수 있도록 하는 인공지능의 한 분야입니다. 그러나 이를 정확하게 수행하려면 비전 AI 모델이 학습할 수 있는 깨끗하고 품질 높은 시각적 데이터가 필요합니다.
구체적으로, Ultralytics YOLO11 및 곧 출시될 Ultralytics YOLO26과 같은 모델은 객체 탐지, 인스턴스 세그멘테이션, 자세 추정 등의 작업을 지원하며 다양한 사용 사례에 맞춰 커스텀 학습이 가능합니다. 이러한 작업은 가장자리, 질감, 색상, 미세한 구조적 세부 사항과 같은 명확한 시각적 단서에 의존합니다.
노이즈가 이러한 특징을 가리면 모델은 더 약한 학습 신호를 받게 되어 정확한 패턴을 학습하기 어려워집니다. 그 결과, 적은 양의 노이즈라도 실제 애플리케이션에서 성능을 저하시킬 수 있습니다.
이전에는 자기 지도 학습이 이미지를 디노이징하는 방법에 대해 살펴보았습니다. 이번 글에서는 자기 지도 디노이징 기법이 어떻게 작동하는지, 그리고 의미 있는 시각적 정보를 복구하는 데 어떻게 도움이 되는지 더 자세히 알아보겠습니다. 시작해 보겠습니다!
Link to this section실제 이미지에서 발생하는 일반적인 노이즈 유형#
이미지 디노이징에 자기 지도 학습이 어떻게 사용되는지 알아보기 전에, 먼저 왜 이미지에 애초부터 노이즈가 발생하는지 다시 짚어보겠습니다.
실제 객체와 장면의 이미지는 거의 완벽하지 않습니다. 낮은 조명, 제한된 센서 품질, 빠른 움직임은 이미지 전반에 걸쳐 개별 픽셀에 무작위적인 방해 요소를 도입할 수 있습니다. 노이즈라고 불리는 이러한 픽셀 단위의 방해 요소는 전체적인 선명도를 떨어뜨리고 중요한 세부 정보를 보기 어렵게 만듭니다.
노이즈가 가장자리, 질감, 미묘한 패턴을 가리면 컴퓨터 비전 시스템은 객체를 인식하거나 장면을 정확하게 해석하는 데 어려움을 겪습니다. 상황에 따라 발생하는 노이즈의 유형이 다르며, 각각의 방식대로 이미지에 영향을 미칩니다.

그림 1. 노이즈가 이미지의 불확실성을 증가시키는 방식에 대한 예시. (출처)
이미지에서 발견되는 가장 일반적인 노이즈 유형은 다음과 같습니다.
- 가우시안 노이즈(Gaussian noise): 이 유형의 노이즈는 전자 센서 간섭이나 열 변동으로 인해 발생하는 부드럽고 무작위적인 입자 형태로 나타납니다. 가우시안(정규) 분포를 따르며, 작은 픽셀 변화가 미세한 세부 사항을 흐리게 하고 전반적인 선명도를 감소시킵니다.
- 푸아송 노이즈(Poisson noise): 샷 노이즈(shot noise)라고도 불리는 이 노이즈는 낮은 조명 조건이나 짧은 노출 시간에서 발생합니다. 밝기에 따라 분산이 증가하지만, 광자가 적게 포착되어 신호 대 잡음비(SNR)가 낮아지므로 어두운 영역에서 더 눈에 띄는 경우가 많습니다.
- 솔트 앤 페퍼 노이즈(Salt-and-pepper noise): 이 유형의 노이즈는 선명한 검은색 또는 흰색 픽셀 스파이크로 나타납니다. 일반적으로 전송 오류, 비트 손상 또는 카메라 센서 결함으로 인해 발생하며, 종종 픽셀 값이 누락되거나 손상된 결과를 초래합니다.
- 스페클 노이즈(Speckle noise): 이 유형의 노이즈는 거칠고 반점 같은 패턴으로 나타나며 의료, 레이더 및 초음파 영상에서 흔히 볼 수 있습니다. 신호 간섭과 산란으로 인해 발생하며, 이로 인해 대비가 감소하고 가장자리를 탐지하기 어려워집니다.
Link to this section자기 지도 디노이징은 언제 사용해야 할까요?#
그렇다면 자기 지도 디노이징이 특별한 이유는 무엇일까요? 깨끗한 정답(ground-truth) 이미지가 아예 존재하지 않거나 획득하기 너무 어려운 상황에서 빛을 발합니다.
이는 주로 저조도 사진, 높은 ISO 이미징, 의료 및 과학 영상 또는 노이즈가 불가피하고 완벽한 참조 데이터를 수집하는 것이 비현실적인 환경에서 발생합니다. 깨끗한 예시 이미지가 필요한 대신, 모델이 이미 가지고 있는 노이즈가 있는 이미지에서 직접 학습하므로 사용하는 카메라나 센서의 특정 노이즈 패턴에 적응할 수 있습니다.
자기 지도 디노이징은 또한 다운스트림 컴퓨터 비전 작업의 성능을 향상시키고 싶지만 데이터셋이 일관성 없거나 노이즈가 많은 이미지로 가득 차 있을 때 훌륭한 선택지입니다. 더 명확한 가장자리, 질감, 구조를 복구함으로써 이러한 방식은 YOLO와 같은 모델이 장면을 더 안정적으로 탐지하고 세그멘테이션하고 이해하도록 돕습니다. 요컨대, 노이즈가 있는 데이터로 작업 중인데 깨끗한 학습 이미지를 구할 수 없다면, 자기 지도 디노이징은 가장 실용적이고 효과적인 해결책을 제시하는 경우가 많습니다.
Link to this section자기 지도 디노이징을 주도하는 핵심 기법#
앞서 살펴보았듯이, 자기 지도 디노이징은 깨끗한 라벨에 의존하지 않고 노이즈가 있는 이미지로부터 모델이 직접 학습할 수 있게 하는 딥러닝 기반 AI 접근 방식입니다. 이는 모델이 데이터 자체로부터 스스로 학습 신호를 생성하는 자기 지도 학습 원리에 기반을 둡니다.
다시 말해, 모델은 노이즈가 있는 이미지를 입력값과 학습 신호의 원천으로 동시에 사용하여 스스로를 가르칠 수 있습니다. 동일한 이미지의 손상된 여러 버전을 비교하거나 마스킹된 픽셀을 예측함으로써, 모델은 어떤 패턴이 실제 구조를 나타내고 어떤 것이 단순 노이즈인지 학습합니다. 반복적인 최적화와 패턴 인식을 통해 네트워크는 점차 의미 있는 이미지 콘텐츠와 무작위적인 변동을 구분하는 능력을 향상시킵니다.

그림 2. 원본 이미지와 디노이징된 이미지. (출처)
이는 모델이 안정적인 이미지 구조를 무작위 노이즈와 분리하도록 안내하는 특정 학습 전략을 통해 가능합니다. 다음으로, 이 과정을 효율화하는 핵심 기법과 알고리즘, 그리고 각 방식이 모델이 더 깨끗하고 신뢰할 수 있는 이미지를 재구성하도록 돕는 방법을 자세히 살펴보겠습니다.
Link to this section쌍 기반(Pairwise) 이미지 디노이징 방식#
초기 자기 지도 디노이징 학습 방식 중 다수는 동일한 이미지의 노이즈가 있는 두 버전을 비교하는 방식으로 작동했습니다. 이미지가 캡처되거나 손상될 때마다 노이즈는 무작위로 변하지만 실제 구조는 동일하게 유지되기 때문에, 이러한 차이를 모델의 학습 신호로 사용할 수 있습니다.
이러한 접근 방식은 학습 중에 노이즈가 있는 이미지 쌍을 사용하거나 생성해야 하므로 흔히 쌍 기반 이미지 디노이징 방식이라고 합니다. 예를 들어, (Jaakko Lehtinen 팀이 제안한) Noise2Noise 방식은 동일한 장면의 독립적으로 노이즈가 발생한 두 이미지를 사용하여 모델을 학습시킵니다. 두 버전 간에 노이즈 패턴이 다르다는 점을 감안할 때, 모델은 실제 기본 이미지를 나타내는 일관된 세부 정보를 식별하는 방법을 학습합니다.

그림 3. Noise2Noise 작동 원리 (출처)
시간이 지남에 따라 네트워크는 깨끗한 참조 이미지를 전혀 보지 않더라도 무작위 노이즈를 억제하고 실제 구조를 유지하도록 학습합니다. 밤에 저조도 거리 사진을 두 장 찍는 간단한 상황을 가정해 보겠습니다.
각 이미지에는 동일한 건물, 조명, 그림자가 포함되어 있지만 입자가 거친 노이즈는 서로 다른 위치에 나타납니다. 학습 중에 이 두 장의 노이즈가 있는 사진을 비교함으로써, 자기 지도 모델은 어떤 시각적 패턴이 안정적이고 어떤 것이 노이즈로 인한 것인지 학습하여 결과적으로 더 깨끗한 이미지를 재구성하는 능력을 향상시킬 수 있습니다.
Link to this section맹점(Blind-spot) 기반 자기 지도 학습 디노이징 방식#
쌍 기반 방식이 동일한 이미지의 손상된 두 버전을 비교하는 데 의존하는 반면, 맹점 방식은 다른 접근 방식을 취합니다. 이 방식은 네트워크가 손상된 값을 볼 수 없도록 선택된 픽셀을 숨겨 단일 노이즈 이미지를 통해 모델이 학습하도록 합니다.
그러면 모델은 주변 맥락만을 사용하여 숨겨진 픽셀을 예측해야 합니다. 핵심 아이디어는 노이즈는 무작위이지만 이미지의 기본 구조는 그렇지 않다는 것입니다.
모델이 픽셀의 노이즈 값을 복사하지 못하게 함으로써, 맹점 방식은 인접한 가장자리, 질감 또는 색상 그라데이션과 같은 안정적인 이미지 패턴을 기반으로 픽셀 값을 추론하도록 유도합니다. Noise2Void(Alexander Krull 팀이 도입) 및 Noise2Self(Joshua Batson 및 Loïc Royer가 개발)와 같은 기법은 개별 픽셀이나 작은 주변 영역을 마스킹하고 이를 재구성하도록 모델을 학습시키는 원리를 구현합니다.
Noise2Same 및 PN2V를 포함한 더 고급 접근 방식은 여러 마스킹 버전 전반에 걸쳐 일관된 예측을 강제하거나 노이즈 분포를 명시적으로 모델링하여 불확실성을 추정함으로써 견고성을 향상시킵니다. 이러한 방식은 단일 노이즈 이미지만 필요로 하므로 현미경, 천문학, 생체의학 영상 또는 저조도 사진과 같이 깨끗하거나 쌍을 이룬 이미지를 캡처하는 것이 비실용적이거나 불가능한 분야에서 특히 유용합니다.
Link to this sectionTransformer 지원 디노이징 방식#
대부분의 쌍 기반 및 맹점 자기 지도 디노이징 방식은 합성곱 신경망(CNN)이나 디노이징 네트워크에 의존합니다. CNN은 가장자리, 질감, 작은 세부 사항과 같은 국소적 패턴에 집중하기 때문에 이러한 접근 방식에 아주 좋은 선택입니다.
U-Net 아키텍처와 같은 모델은 세밀한 특징과 다중 스케일 정보를 결합하기 때문에 널리 사용됩니다. 그러나 CNN은 주로 제한된 영역 내에서 작동하며, 이는 이미지의 더 넓은 영역에 걸친 중요한 관계를 놓칠 수 있음을 의미합니다.
이러한 한계를 해결하기 위해 Transformer가 지원되는 최첨단 디노이징 방식이 도입되었습니다. 주변 픽셀만 보는 대신, 제안된 방식은 어텐션(attention) 메커니즘을 사용하여 이미지의 서로 다른 부분이 어떻게 연관되어 있는지 이해합니다.
일부 모델은 전체 글로벌 어텐션을 사용하는 반면, 다른 모델은 연산량을 줄이기 위해 윈도우 기반 또는 계층적 어텐션을 사용합니다. 하지만 일반적으로 이러한 모델들은 CNN만으로는 파악할 수 없는 장거리 구조를 포착하도록 설계되었습니다. 이러한 더 넓은 시야는 모델이 이미지 전체에서 정보를 가져와야 하는 반복적인 질감, 매끄러운 표면 또는 큰 객체를 복원하는 데 도움이 됩니다.
Link to this section기타 이미지 디노이징 방식#
자기 지도 기법 외에도 노이즈가 있는 이미지를 정리하는 다른 여러 방법이 있습니다. 양방향 필터링(bilateral filtering), 웨이블릿 디노이징(wavelet denoising), 비로컬 평균(non-local means)과 같은 전통적인 방식은 단순한 수학적 규칙을 사용하여 중요한 세부 정보는 유지하면서 노이즈를 부드럽게 제거합니다.
한편, 깨끗한 이미지와 노이즈가 있는 이미지 쌍으로부터 학습하는 지도 학습 모델과 더 선명하고 현실적인 결과를 생성하는 생성적 적대 신경망(GAN)을 포함한 딥러닝 접근 방식도 존재합니다. 그러나 이러한 방식은 대개 학습을 위해 더 높은 이미지 품질을 요구합니다.
Link to this section자기 지도 이미지 디노이징의 작동 방식 단계별 살펴보기#
방금 여러 가지 기법을 살펴보았기 때문에, 각 기법이 자체 아키텍처를 사용한다는 점을 고려할 때 각각 완전히 다른 방식으로 작동하는지 궁금할 수 있습니다. 하지만 이 모든 기법은 데이터 준비로 시작하여 모델 평가로 끝나는 유사한 파이프라인을 따릅니다.
다음으로, 전체 자기 지도 디노이징 이미지 처리 과정이 단계별로 어떻게 작동하는지 자세히 살펴보겠습니다.
Link to this section1단계: 전처리 및 정규화#
모델이 노이즈가 있는 이미지로부터 학습을 시작하기 전에 첫 번째 단계는 모든 이미지가 일관되게 보이도록 하는 것입니다. 실제 사진은 매우 다양할 수 있습니다.
어떤 이미지는 너무 밝고, 어떤 이미지는 너무 어두우며, 일부는 색상이 약간 다를 수 있습니다. 이러한 차이를 모델에 직접 입력하면 모델이 노이즈가 어떻게 보이는지 학습하는 데 집중하기가 더 어려워집니다.
이를 처리하기 위해 각 이미지는 정규화와 기본적인 전처리를 거칩니다. 여기에는 픽셀 값을 표준 범위로 조정하거나, 밝기 변화를 보정하거나, 자르기 및 크기 조절 등이 포함될 수 있습니다. 핵심은 모델이 안정적이고 비교 가능한 입력값으로 사용할 수 있는 깨끗한 데이터를 수신하는 것입니다.
Link to this section2단계: 자기 지도 학습 신호 생성#
이미지 정규화가 완료되면 다음 단계는 깨끗한 이미지를 전혀 보지 않고도 모델이 학습할 수 있는 학습 신호를 생성하는 것입니다. 자기 지도 디노이징 방식은 모델이 입력받은 노이즈 픽셀 값을 단순히 복사할 수 없도록 보장함으로써 이를 수행합니다.
대신, 모델이 예측할 수 없는 노이즈가 아닌 안정적인 구조를 포함하는 이미지의 주변 맥락에 의존해야 하는 상황을 만듭니다. 다양한 방식이 약간씩 다른 방식으로 이를 달성하지만 핵심 아이디어는 동일합니다.
일부 접근 방식은 특정 픽셀을 일시적으로 숨기거나 마스킹하여 모델이 인접 픽셀로부터 추론하도록 강제하고, 다른 방식은 동일한 노이즈 이미지의 별도 손상 버전을 생성하여 입력값과 목표값에 독립적인 노이즈가 포함되도록 합니다. 두 경우 모두 목표 이미지에는 의미 있는 구조 정보가 포함되어 있지만, 모델이 예측해야 할 픽셀의 원래 노이즈 값에 접근하는 것은 차단합니다.
노이즈는 무작위로 변하지만 기본 이미지는 일관되게 유지되기 때문에, 이 설정은 자연스럽게 모델이 진정한 구조가 무엇인지 학습하고 버전마다 변하는 노이즈를 무시하도록 유도합니다.
Link to this section3단계: 이미지 구조 복구를 위한 디노이징 학습#
학습 신호가 준비되면 모델은 모델 학습을 통해 의미 있는 이미지 구조와 노이즈를 분리하는 방법을 학습하기 시작합니다. 마스킹되거나 재손상된 픽셀을 예측할 때마다 원래 그 자리를 차지했던 노이즈 값 대신 주변 맥락에 의존해야 합니다.
많은 반복 또는 에포크(epoch)를 거치면서 이는 네트워크가 가장자리, 질감, 매끄러운 표면과 같이 이미지 전반에 걸쳐 안정적으로 유지되는 패턴의 종류를 인식하도록 가르칩니다. 또한 노이즈를 특징짓는 무작위적인 변동을 무시하는 방법도 학습합니다.
예를 들어, 표면이 매우 거칠게 보이는 저조도 사진을 고려해 보십시오. 노이즈는 픽셀마다 다르지만 기본 표면은 여전히 매끄럽습니다. 이러한 영역에서 숨겨진 픽셀을 반복적으로 추론함으로써 모델은 점차 노이즈 아래의 안정적인 패턴을 식별하고 이를 더 깨끗하게 재구성하는 능력을 갖추게 됩니다.
모델 학습 과정을 통해 네트워크는 이미지 구조에 대한 내부 표현을 학습합니다. 이를 통해 입력 데이터가 심하게 손상된 경우에도 모델이 일관된 세부 정보를 복구할 수 있게 됩니다.
Link to this section4단계: 검증 및 노이즈 감소 결과#
모델이 숨겨진 픽셀이나 재손상된 픽셀을 예측하는 법을 배운 후, 마지막 단계는 전체 이미지에서 얼마나 잘 작동하는지 평가하는 것입니다. 테스트 중에 모델은 노이즈가 있는 이미지 전체를 입력받고, 이미지 구조에 대해 학습한 내용을 바탕으로 완전히 디노이징된 버전을 생성합니다. 이 과정이 얼마나 효과적인지 측정하기 위해 출력값을 깨끗한 참조 이미지 또는 표준 벤치마크 데이터셋과 비교합니다.
자주 사용되는 두 가지 지표는 재구성이 깨끗한 정답과 얼마나 가까운지 측정하는 PSNR(Peak Signal-to-Noise Ratio)과 가장자리나 질감과 같은 중요한 특징이 얼마나 잘 보존되었는지 평가하는 SSIM(Structural Similarity Index)입니다. 점수가 높을수록 일반적으로 더 정확하고 시각적으로 신뢰할 수 있는 디노이징을 의미합니다.
Link to this section학습 및 벤치마킹에 사용되는 이미지 데이터셋#
IEEE 저널 및 CVPR, ICCV, ECCV와 같은 CVF 컨퍼런스에 등장하며 arXiv에도 널리 배포되는 자기 지도 디노이징 연구는 제어된 조건과 실무 환경 모두에서 딥러닝 방식의 모델 성능을 평가하기 위해 합성 데이터셋과 실제 데이터셋을 조합하여 사용하는 경우가 많습니다. 한편으로, 합성 데이터셋은 깨끗한 이미지로 시작하여 인공 노이즈를 추가하므로 PSNR 및 SSIM과 같은 지표를 사용하여 방식을 비교하기가 쉽습니다.
벤치마킹을 위해 합성 노이즈가 추가된 일반적으로 사용되는 데이터셋 몇 가지는 다음과 같습니다.
- Kodak24: 이 데이터셋은 디노이징 결과를 시각적으로 비교하는 데 흔히 사용되는 고품질 자연 장면 사진을 제공합니다.
- DIV2K: 이 고해상도 데이터셋은 질감의 충실도와 전반적인 복원 품질을 평가하는 데 사용되는 다양하고 상세한 이미지를 포함합니다.
반면, 실제 노이즈 데이터셋은 낮은 조명, 높은 ISO 또는 기타 까다로운 조건에서 카메라 센서로부터 직접 캡처된 이미지를 포함합니다. 이러한 데이터셋은 쉽게 시뮬레이션할 수 없는 복잡한 비가우시안(non-Gaussian) 노이즈를 모델이 처리할 수 있는지 테스트합니다.
인기 있는 실제 노이즈 데이터셋 몇 가지는 다음과 같습니다.
- SIDD: 이 데이터셋은 다양한 조명 환경에서 스마트폰 센서로 캡처한 실제 노이즈 및 깨끗한 이미지 쌍을 제공합니다.
- DND: 여기에는 소비자용 카메라에서 발견되는 현실적인 센서 노이즈 패턴을 포착한 고 ISO 사진이 포함되어 있습니다.

그림 4. DND 데이터셋의 예시. (출처)
Link to this section자기 지도 디노이징 모델을 학습할 때 고려해야 할 요소#
딥러닝 기반 자기 지도 디노이징 모델을 학습하려는 경우 고려해야 할 몇 가지 요소와 제한 사항은 다음과 같습니다.
- 노이즈 분포 일치: 학습에 사용되는 노이즈가 있는 이미지는 모델이 실제 사용 환경에서 마주하게 될 동일한 노이즈를 반영해야 합니다. 노이즈가 일치하지 않으면 일반화 능력이 떨어집니다.
- 학습 데이터 다양성 보장: 변화가 제한적이면 복잡한 질감에서 과적합(overfitting)이나 과도하게 매끄러워지는(oversmoothing) 현상이 발생할 수 있습니다.
- 노이즈 유형 제한 사항 숙지: 자기 지도 방식은 구조적이고 상관관계가 있거나 비무작위적인 노이즈를 처리하는 데 더 큰 어려움을 겪습니다.
- 장치 또는 센서 전반에 걸친 테스트: 디노이징 성능은 카메라나 영상 시스템에 따라 크게 다를 수 있습니다.
Link to this section핵심 요약#
자기 지도 디노이징은 AI 애호가들에게 이미 가지고 있는 노이즈가 있는 데이터만 사용하여 이미지를 깨끗하게 정리할 수 있는 실용적인 방법을 제공합니다. 노이즈 아래의 실제 구조를 인식하는 방법을 학습함으로써 이러한 방식은 중요한 시각적 세부 정보를 복구할 수 있습니다. 디노이징 기술이 계속 발전함에 따라, 일상적인 환경에서 다양한 컴퓨터 비전 작업을 더 신뢰할 수 있게 만들 가능성이 높습니다.
점점 커지고 있는 저희 커뮤니티의 일원이 되어 보세요! AI에 대해 더 자세히 알아보려면 GitHub 저장소를 살펴보세요. 컴퓨터 비전 솔루션을 구축하고 싶으시다면 라이선스 옵션을 확인해 보세요. 소매 분야의 컴퓨터 비전 이점을 탐색하고 제조 분야의 AI가 어떤 변화를 만들어내고 있는지 확인해 보세요!






