Yolo 비전 선전
선전
지금 참여하기

노이즈 제거를 위한 자기 지도 학습: 단계별 분석

Abirami Vina

5분 분량

2025년 12월 2일

노이즈 제거를 위한 자율 감독 학습이 어떻게 작동하는지, 이미지에 노이즈가 발생하는 이유, 그리고 깨끗한 시각적 디테일을 복원하는 데 사용되는 핵심 방법과 단계를 살펴보세요.

카메라는 우리가 보는 그대로 세상을 담아내지 못할 때가 있습니다. 어두운 곳에서 찍은 인물 사진이나 빠르게 움직이는 자동차 사진은 입자가 굵어 보이거나 흐릿하거나 왜곡되어 보일 수 있습니다. 

느린 센서, 어두운 환경, 움직임은 가장자리를 흐리게 하고 중요한 디테일을 가리는 미세한 잡음 점들을 발생시킬 수 있습니다. 이러한 선명도가 상실되면, 많은 스마트 시스템이 제대로 작동하기 위해 이러한 미세한 디테일에 의존하기 때문에, 심지어 고급 AI 및 머신러닝 시스템조차도 이미지가 무엇을 포함하는지 이해하는 데 어려움을 겪을 수 있습니다.

예를 들어, 컴퓨터 비전은 기계가 이미지와 영상을 해석할 수 있게 하는 인공지능의 한 분야입니다. 그러나 이를 정확하게 수행하기 위해서는 비전 AI 모델이 학습할 수 있는 깨끗하고 고품질의 시각적 데이터가 필요합니다. 

특히, 다음과 같은 모델들 Ultralytics YOLO11 및 곧 출시될 Ultralytics 같은 모델은 객체 탐지, 인스턴스 분할, 자세 추정 등의 작업을 지원하며 다양한 사용 사례에 맞게 맞춤형 훈련이 가능합니다. 이러한 작업들은 가장자리, 질감, 색상, 미세한 구조적 세부 사항과 같은 명확한 시각적 단서에 의존합니다. 

잡음이 이러한 특징을 가릴 때 모델은 약한 훈련 신호를 받아 정확한 패턴 학습이 어려워집니다. 결과적으로 실제 적용 환경에서는 소량의 잡음만으로도 성능이 저하될 수 있습니다.

이전에는 자기지도 학습이 이미지를 어떻게 노이즈 제거하는지 살펴보았습니다. 이번 글에서는 자기지도 노이즈 제거 기법이 어떻게 작동하는지, 그리고 의미 있는 시각 정보를 복원하는 데 어떻게 도움이 되는지 더 깊이 알아보겠습니다. 시작해 보겠습니다!

실제 이미지에서 흔히 발생하는 잡음 유형

이미지 노이즈 제거에 자기지도 학습이 어떻게 활용되는지 살펴보기 전에, 먼저 왜 이미지에 노이즈가 발생하는지 다시 한번 살펴보겠습니다.

실제 사물과 장면의 이미지는 거의 완벽하지 않습니다. 낮은 조명, 제한된 센서 품질, 빠른 움직임은 이미지 전체에 걸쳐 개별 픽셀에 무작위적인 방해를 일으킬 수 있습니다. 이러한 픽셀 수준의 방해 요소는 노이즈로 알려져 있으며, 전체적인 선명도를 저하시키고 중요한 세부 사항을 식별하기 어렵게 만듭니다.

잡음이 경계선, 질감, 미세한 패턴을 가릴 때 컴퓨터 비전 시스템은 물체를 인식하거나 장면을 정확히 해석하는 데 어려움을 겪습니다. 다양한 조건은 서로 다른 유형의 잡음을 발생시키며, 각각이 고유한 방식으로 이미지에 영향을 미칩니다.

그림 1. 노이즈가 이미지의 불확실성을 증가시키는 예시. (출처)

이미지에서 발견되는 가장 흔한 노이즈 유형은 다음과 같습니다:

  • 가우시안 노이즈: 이 유형의 노이즈는 전자 센서 간섭이나 열적 변동으로 인해 발생하는 부드럽고 무작위적인 입자 형태로 나타납니다. 가우시안(정규) 분포를 따르며, 작은 픽셀 변동이 미세한 디테일을 흐리게 하고 전체적인 선명도를 저하시킵니다.
  • 푸아송 잡음: 샷 노이즈라고도 불리는 이 잡음은 저조도 조건이나 짧은 노출 시간에서 발생합니다. 그 분산은 밝기에 따라 증가하지만, 포획되는 광자 수가 적어 신호 대 잡음 비율이 낮아지기 때문에 어두운 영역에서 잡음이 더 두드러지게 나타납니다.
  • 소금과 후추 잡음: 이 유형의 잡음은 날카로운 검정색 또는 흰색 픽셀 스파이크 형태로 나타납니다. 일반적으로 전송 오류, 비트 손상 또는 결함 있는 카메라 센서로 인해 발생하며, 종종 픽셀 값이 누락되거나 손상되는 결과를 초래합니다.
  • 스펙클 노이즈: 이 유형의 노이즈는 입자 모양의 점 같은 패턴으로 나타나며, 의료 영상, 레이더 영상, 초음파 영상에서 흔히 관찰됩니다. 신호 간섭과 산란에 의해 발생하며, 이로 인해 대비가 감소하고 경계선 detect 어려워집니다.

자기지도형 노이즈 제거는 언제 사용해야 할까요?

그렇다면, 자기 지도형 노이즈 제거가 특별한 이유는 무엇일까요? 깨끗한 기준 이미지가 아예 존재하지 않거나 획득하기 너무 어려운 상황에서 그 진가를 발휘합니다. 

이는 저조도 촬영, 고감도 촬영, 의료 및 과학 영상 촬영, 또는 노이즈가 불가피하고 완벽한 기준 데이터를 수집하는 것이 비현실적인 모든 환경에서 흔히 발생합니다. 깨끗한 예시가 필요한 대신, 모델은 이미 보유한 노이즈가 있는 이미지로부터 직접 학습하여 카메라나 센서의 특정 노이즈 패턴에 적응할 수 있습니다.

데이터셋이 불규칙하거나 노이즈가 많은 이미지로 가득 차 있을 때 하위 컴퓨터 비전 작업의 성능을 향상시키고자 한다면, 자기 지도식 노이즈 제거도 훌륭한 선택지입니다. 이러한 방법은 더 선명한 경계선, 질감, 구조를 복원함으로써 YOLO 같은 모델이 장면을 더 안정적으로detect, segment, 이해하는 데 도움을 줍니다. 간단히 말해, 노이즈가 많은 데이터를 다루고 있으며 깨끗한 훈련용 이미지가 확보되지 않은 경우, 자기 지도식 노이즈 제거가 가장 실용적이고 효과적인 해결책을 제공하는 경우가 많습니다.

자기 지도형 노이즈 제거를 주도하는 핵심 기술들

앞서 살펴본 바와 같이, 자기지도형 노이즈 제거는 딥러닝 기반 AI 접근법으로, 깨끗한 레이블에 의존하지 않고 노이즈가 포함된 이미지에서 직접 학습할 수 있게 합니다. 이는 자기지도 학습의 원리를 바탕으로 하며, 여기서 모델은 데이터 자체로부터 자체적인 훈련 신호를 생성합니다.

즉, 모델은 노이즈가 섞인 이미지를 입력과 학습 신호의 원천으로 동시에 활용하여 스스로 학습할 수 있다. 동일한 이미지의 서로 다른 손상된 버전을 비교하거나 가려진 픽셀을 예측함으로써, 모델은 어떤 패턴이 실제 구조를 나타내는지, 어떤 패턴이 단순한 노이즈인지 학습한다. 반복적인 최적화와 패턴 인식을 통해 네트워크는 의미 있는 이미지 콘텐츠와 무작위 변이를 구분하는 능력을 점차 향상시킨다.

그림 2. 원본 이미지와 노이즈 제거된 이미지. (출처)

이는 모델이 안정적인 이미지 구조와 무작위 노이즈를 구분하도록 안내하는 특정 학습 전략을 통해 가능해집니다. 다음으로, 이 과정을 효율화하는 핵심 기술과 알고리즘을 자세히 살펴보고 각 접근 방식이 모델이 더 깨끗하고 신뢰할 수 있는 이미지를 재구성하는 데 어떻게 기여하는지 알아보겠습니다.

쌍별 이미지 노이즈 제거 방법

많은 초기 노이즈 제거를 위한 자율 학습 방법은 동일한 이미지의 두 가지 노이즈 버전 간 비교를 통해 작동했습니다. 이미지가 캡처되거나 손상될 때마다 노이즈는 무작위로 변하지만 실제 구조는 동일하게 유지되므로, 이러한 차이점을 모델의 학습 신호로 활용할 수 있습니다. 

이러한 접근법들은 훈련 과정에서 노이즈가 포함된 이미지 쌍을 사용하거나 생성하는 데 의존하기 때문에 일반적으로 쌍별 이미지 노이즈 제거 기법으로 불립니다. 예를 들어, Jaakko Lehtinen과 그의 팀이 제안한 Noise2Noise 접근법은 동일한 장면의 독립적으로 노이즈가 가해진 두 이미지를 사용하여 모델을 훈련시킵니다. 두 버전 간 노이즈 패턴이 서로 다르기 때문에, 모델은 실제 기본 이미지를 나타내는 일관된 세부 사항을 식별하는 법을 학습합니다.

그림 3. Noise2Noise의 작동 방식 (출처)

시간이 지남에 따라, 이는 네트워크가 깨끗한 참조 이미지를 전혀 보지 못하더라도 무작위 노이즈를 억제하고 실제 구조를 보존하도록 가르칩니다. 야간 저조도 거리에서 두 장의 사진을 찍는 간단한 시나리오를 생각해 보십시오. 

각 이미지는 동일한 건물, 조명, 그림자를 포함하지만, 입자 노이즈는 서로 다른 위치에 나타납니다. 훈련 과정에서 이 두 노이즈가 있는 사진을 비교함으로써, 자기지도 학습 모델은 어떤 시각적 패턴이 안정적인지, 어떤 패턴이 노이즈로 인한 것인지 학습할 수 있으며, 결국 더 깨끗한 이미지를 재구성하는 능력을 향상시킵니다.

노이즈 제거를 위한 사각지대 기반 자기 지도 학습 방법

쌍대조법이 동일한 이미지의 서로 다른 방식으로 손상된 두 버전을 비교하는 데 의존하는 반면, 블라인드 스팟 기법은 다른 접근법을 취합니다. 이 기법은 선택된 픽셀을 숨겨 네트워크가 손상된 값을 볼 수 없도록 함으로써 단일 노이즈 이미지로부터 모델이 학습할 수 있게 합니다. 

모델은 이후 주변 컨텍스트만을 활용하여 숨겨진 픽셀을 예측해야 합니다. 핵심 아이디어는 노이즈는 무작위적이지만, 이미지의 근본적인 구조는 그렇지 않다는 점입니다. 

모델이 노이즈가 많은 픽셀 값을 복사하지 못하도록 함으로써, 블라인드 스팟 기법은 모델이 근처의 가장자리, 질감 또는 색상 그라데이션과 같은 안정적인 이미지 패턴을 기반으로 해당 픽셀이 무엇이어야 하는지 추론하도록 유도합니다. Noise2Void(Alexander Krull 팀이 제안) 및 Noise2Self(Joshua Batson과 Loïc Royer가 개발) 같은 기법은 개별 픽셀이나 작은 근접 영역을 가리고 모델이 이를 재구성하도록 훈련함으로써 이 원리를 구현합니다.

Noise2Same 및 PN2V를 포함한 보다 진보된 접근법들은 여러 가면 처리된 버전에서 일관된 예측을 강제하거나 노이즈 분포를 명시적으로 모델링하여 불확실성을 추정함으로써 견고성을 향상시킵니다. 이러한 방법들은 단일 노이즈 이미지만 필요로 하기 때문에, 현미경 촬영, 천문학, 생의학 영상, 저조도 사진 촬영과 같이 깨끗한 이미지나 쌍을 이루는 이미지를 획득하는 것이 비실용적이거나 불가능한 분야에서 특히 유용합니다.

트랜스포머 기반 노이즈 제거 방법

대부분의 쌍별 및 사각지대 자기지도형 노이즈 제거 기법은 컨볼루션 신경망(CNN) 또는 노이즈 제거 네트워크에 의존합니다. CNN은 가장자리, 질감, 미세한 세부 사항과 같은 국소 패턴에 집중하기 때문에 이러한 접근법에 탁월한 선택지입니다. 

U-Net과 같은 아키텍처는 미세한 특징과 다중 스케일 정보를 결합하기 때문에 널리 사용됩니다. 그러나 CNN은 주로 제한된 근방 내에서 작동하므로, 이미지의 더 넓은 영역에 걸쳐 있는 중요한 관계를 놓칠 수 있습니다.

이 한계를 해결하기 위해 트랜스포머 기반의 최신 노이즈 제거 기법이 도입되었다. 제안된 방법은 인접 픽셀만을 살펴보는 대신, 어텐션 메커니즘을 활용하여 이미지 내 서로 다른 부분들이 어떻게 연관되어 있는지 이해한다. 

일부 모델은 전체 영역에 대한 완전한 어텐션을 사용하는 반면, 다른 모델들은 계산량을 줄이기 위해 창 기반 또는 계층적 어텐션을 사용합니다. 그러나 일반적으로 이들은 CNN만으로는 포착할 수 없는 장거리 구조를 포착하도록 설계되었습니다. 이러한 넓은 시야는 모델이 반복되는 질감, 매끄러운 표면 또는 이미지 전체의 정보가 필요한 대형 물체를 복원하는 데 도움이 됩니다.

기타 이미지 노이즈 제거 방법

자기지도 학습 기법 외에도 잡음이 많은 이미지를 정제하는 여러 방법이 존재한다. 양면 필터링, 웨이블릿 노이즈 제거, 비국소 평균과 같은 전통적인 기법들은 단순한 수학적 규칙을 활용해 잡음을 완화하면서도 중요한 세부 정보를 보존하려 시도한다. 

한편, 딥러닝 접근법도 존재하는데, 여기에는 깨끗한 이미지와 노이즈가 섞인 이미지 쌍으로부터 학습하는 지도 학습 모델과 더 선명하고 현실적인 결과를 생성하는 생성적 적대적 네트워크(GAN)가 포함된다. 그러나 이러한 방법들은 일반적으로 훈련을 위해 더 나은 화질의 이미지를 필요로 한다.

자기 지도 학습 기반 이미지 노이즈 제거의 작동 원리 단계별 분석

방금 여러 가지 다른 기법들을 살펴봤으니, 각 기법이 고유한 아키텍처를 사용한다는 점을 고려할 때 완전히 다른 방식으로 작동하는지 궁금할 수 있습니다. 그러나 이 모든 기법들은 데이터 준비로 시작하여 모델 평가로 끝나는 유사한 파이프라인을 따릅니다.

다음으로, 전체적인 자기 지도식 노이즈 제거 이미지 프로세스가 단계별로 어떻게 작동하는지 자세히 살펴보겠습니다. 

1단계: 전처리 및 정규화

모델이 노이즈가 많은 이미지로부터 학습을 시작하기 전에, 첫 번째 단계는 모든 이미지가 일관되게 보이도록 하는 것입니다. 실제 사진은 매우 다양할 수 있습니다. 

일부 이미지는 너무 밝을 수 있고, 다른 이미지는 너무 어둡거나 색상이 약간 어긋날 수 있습니다. 이러한 변이를 모델에 직접 입력하면 모델이 노이즈의 형태를 학습하는 데 집중하기 어려워집니다.

이를 처리하기 위해 각 이미지는 정규화 및 기본 전처리 과정을 거칩니다. 여기에는 픽셀 값을 표준 범위로 조정하거나, 밝기 변동을 보정하거나, 자르기 및 크기 조정이 포함될 수 있습니다. 핵심은 모델이 안정적이고 비교 가능한 입력으로 활용될 수 있는 깨끗한 데이터를 수신한다는 점입니다.

2단계: 자율 감독 학습 신호 생성

이미지가 정규화된 후 다음 단계는 깨끗한 이미지를 전혀 보지 않고도 모델이 학습할 수 있도록 하는 훈련 신호를 생성하는 것이다. 자기지도식 노이즈 제거 기법은 모델이 단순히 수신한 노이즈 픽셀 값을 복사하지 못하도록 함으로써 이를 달성한다. 

대신, 모델이 예측 불가능한 잡음보다는 안정적인 구조를 지닌 이미지의 주변 맥락에 의존해야 하는 상황을 만들어 냅니다. 다양한 방법이 이를 약간 다른 방식으로 달성하지만, 핵심 아이디어는 동일합니다. 

일부 접근법은 특정 픽셀을 일시적으로 숨기거나 가려 모델이 주변 픽셀로부터 이를 추론하도록 하는 반면, 다른 접근법은 동일한 노이즈가 있는 이미지의 별도로 손상된 버전을 생성하여 입력과 목표값이 독립적인 노이즈를 포함하도록 합니다. 두 경우 모두 목표 이미지는 의미 있는 구조적 정보를 담고 있지만, 네트워크가 예측해야 할 픽셀의 원래 노이즈 값에 접근하는 것을 방지합니다.

기본 이미지는 일관되게 유지되는 반면 노이즈는 무작위로 변화하기 때문에, 이러한 설정은 모델이 진정한 구조가 어떻게 보이는지 학습하고 버전마다 달라지는 노이즈는 무시하도록 자연스럽게 유도합니다.

3단계: 이미지 구조 복원을 위한 노이즈 제거 학습

훈련 신호가 설정되면 모델은 훈련 과정을 통해 의미 있는 이미지 구조를 노이즈로부터 분리하는 방법을 학습하기 시작할 수 있습니다. 마스크 처리되거나 재오염된 픽셀을 예측할 때마다, 모델은 원래 해당 위치에 있던 노이즈 값 대신 주변 컨텍스트에 의존해야 합니다. 

여러 반복 과정(에포크)을 거치면서, 이 과정은 네트워크가 이미지 전체에 걸쳐 안정적으로 유지되는 패턴들(예: 경계선, 질감, 매끄러운 표면 등)을 인식하도록 가르칩니다. 또한 노이즈의 특징인 무작위적인 변동은 무시하도록 학습합니다. 

예를 들어, 표면이 극도로 거칠게 보이는 저조도 사진을 생각해 보자. 비록 노이즈가 픽셀마다 다르지만, 근본적인 표면은 여전히 매끄럽다. 이러한 영역에서 숨겨진 픽셀을 반복적으로 추론함으로써, 모델은 점차 노이즈 아래의 안정적인 패턴을 식별하고 더 깨끗하게 재구성하는 능력이 향상된다. 

모델 훈련 과정을 통해 네트워크는 이미지의 구조에 대한 내부 표현을 학습합니다. 이를 통해 입력 데이터가 심하게 손상된 경우에도 모델은 일관된 세부 정보를 복원할 수 있습니다.

4단계: 검증 및 잡음 감소 결과

모델이 숨겨진 픽셀이나 재손상된 픽셀을 예측하는 법을 학습한 후, 마지막 단계는 전체 이미지에서 얼마나 잘 수행하는지 평가하는 것입니다. 테스트 과정에서 모델은 노이즈가 있는 전체 이미지를 입력으로 받아들이고, 학습한 이미지 구조 정보를 바탕으로 노이즈가 제거된 완전한 버전을 생성합니다. 이 과정의 효과를 측정하기 위해 출력 결과는 깨끗한 참조 이미지 또는 표준 벤치마크 데이터셋과 비교됩니다.

두 가지 일반적으로 사용되는 지표는 PSNR(Peak Signal-to-Noise Ratio, 피크 신호 대 잡음비)로, 재구성이 깨끗한 실제 데이터에 얼마나 근접한지를 측정하며, SSIM(Structural Similarity Index, 구조적 유사도 지수)로, 가장자리나 질감과 같은 중요한 특징이 얼마나 잘 보존되었는지를 평가합니다. 일반적으로 점수가 높을수록 더 정확하고 시각적으로 신뢰할 수 있는 노이즈 제거를 의미합니다.

훈련 및 벤치마킹에 사용된 이미지 데이터셋

자기 지도형 노이즈 제거 연구는 IEEE 저널과 CVF 컨퍼런스(CVPR, ICCV, ECCV 등)에 게재되거나 arXiv에 널리 배포되며, 통제된 환경과 실제 환경 모두에서 딥러닝 방법의 모델 성능을 평가하기 위해 합성 데이터셋과 실제 데이터셋을 혼합하여 사용하는 경우가 많다. 한편, 합성 데이터셋은 깨끗한 이미지를 기반으로 인공 노이즈를 추가하므로 PSNR 및 SSIM과 같은 지표를 사용한 방법 비교가 용이하다.

벤치마킹을 위해 합성 잡음을 추가하여 흔히 사용되는 몇 가지 인기 데이터셋은 다음과 같습니다:

  • Kodak24: 이 데이터셋은 노이즈 제거 결과를 시각적으로 비교하는 데 흔히 사용되는 고품질 자연 장면 사진들을 제공합니다.

  • DIV2K: 이 고해상도 데이터셋은 텍스처 충실도와 전반적인 복원 품질을 평가하는 데 사용되는 다양하고 상세한 이미지들을 포함합니다.

반면 실제 세계의 노이즈가 많은 데이터셋은 저조도, 높은 ISO 설정 또는 기타 까다로운 조건에서 카메라 센서로 직접 촬영한 이미지를 포함합니다. 이러한 데이터셋은 모델이 쉽게 시뮬레이션할 수 없는 복잡한 비가우시안 노이즈를 처리할 수 있는지 테스트합니다.

다음은 실제 세계에서 흔히 볼 수 있는 잡음이 많은 데이터 세트들입니다:

  • SIDD: 본 데이터셋은 다양한 조명 환경에서 스마트폰 센서로 촬영한 실제 노이즈가 있는 이미지와 깨끗한 이미지 쌍을 제공합니다.

  • DND: 여기에는 소비자용 카메라에서 발견되는 현실적인 센서 노이즈 패턴을 포착한 고감도 ISO 사진이 포함됩니다.

그림 4. DND 데이터셋의 예시. (출처)

자기지도형 노이즈 제거 모델 훈련 시 고려해야 할 요소들

딥러닝 기반의 자기 지도식 노이즈 제거 모델을 훈련할 때 고려해야 할 몇 가지 요소와 한계는 다음과 같습니다:

  • 노이즈 분포를 일치시켜야 합니다: 훈련에 사용되는 노이즈가 있는 이미지는 모델이 실제 사용 시 마주하게 될 노이즈와 동일해야 합니다. 노이즈가 일치하지 않으면 일반화 성능이 저하됩니다.
  • 훈련 데이터의 다양성 확보: 제한된 변동성은 복잡한 텍스처에서 과적합 또는 과도한 평활화를 유발할 수 있습니다.
  • 잡음 유형의 한계를 인지하십시오: 자기지도 학습 방식은 구조화되거나 상관관계가 있거나 비무작위적인 잡음에 더 취약합니다.
  • 다양한 장치 또는 센서 간 테스트: 노이즈 제거 성능은 카메라 또는 이미징 시스템에 따라 크게 달라질 수 있습니다.

주요 내용

자기지도식 노이즈 제거는 AI 애호가들에게 기존에 보유한 노이즈가 많은 데이터만으로 이미지를 정제할 수 있는 실용적인 방법을 제공합니다. 이러한 기법들은 노이즈 아래에 숨겨진 실제 구조를 인식하는 법을 학습함으로써 중요한 시각적 세부 사항을 복원할 수 있습니다. 노이즈 제거 기술이 지속적으로 발전함에 따라 일상 환경에서 다양한 컴퓨터 비전 작업의 신뢰성을 높일 것으로 기대됩니다.

우리의 성장하는 커뮤니티에 함께하세요! AI에 대해 더 알아보려면 GitHub 저장소를 살펴보세요. 컴퓨터 비전 솔루션을 구축하려는 경우, 저희 라이선스 옵션을 확인해 보세요. 소매업에서 컴퓨터 비전의 이점을 탐색하고, 제조업에서 AI가 어떻게 변화를 만들어내는지 확인하세요!

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기