단안 깊이 추정 방식의 작동 원리를 알아보고, 센서 기반 깊이 측정 방식과의 비교를 통해 비전 시스템에서 확장 가능한 3D 인식이 어떻게 가능해지는지 살펴봅니다.
단안 깊이 추정 방식의 작동 원리를 알아보고, 센서 기반 깊이 측정 방식과의 비교를 통해 비전 시스템에서 확장 가능한 3D 인식이 어떻게 가능해지는지 살펴봅니다.
자율주행차는 주변 상황을 이해하여 안전하게 주행할 수 있도록 설계되었습니다. 이는 단순히 보행자나 다른 차량과 같은 물체를 인식하는 것을 넘어서는 것을 의미합니다.
또한 올바르게 반응하기 위해서는 해당 물체들이 얼마나 멀리 떨어져 있는지 알아야 합니다. 그러나 기계에 이러한 거리 감각을 부여하는 것은 간단하지 않습니다. 인간과 달리 기계는 이미지로부터 깊이를 자연스럽게 인지하지 못하며, 이를 수행하는 방법을 명시적으로 가르쳐야 합니다.
이 배경에는 대부분의 카메라가 세상을 평평한 2차원 이미지로 포착한다는 점이 있습니다. 이러한 이미지를 실제 세계의 깊이와 3차원 구조를 반영하는 형태로 변환하는 것은 까다로운 작업이며, 특히 시스템이 일상적인 환경에서 안정적으로 작동해야 할 때 더욱 그렇습니다.
흥미롭게도, 시각 데이터를 해석하고 이해하는 데 초점을 맞춘 AI의 한 분야인 컴퓨터 비전은 기계가 이미지를 통해 세상을 더 잘 이해할 수 있게 합니다. 예를 들어, 단안 깊이 추정 (monocular depth estimation )은 단일 카메라 이미지만을 사용하여 물체의 거리를 추정하는 컴퓨터 비전 기술입니다.
물체 크기, 원근법, 질감, 음영과 같은 시각적 단서를 학습함으로써, 이러한 모델들은 라이다(LiDAR, Light Detection and Ranging)나 스테레오 카메라 같은 추가 센서에 의존하지 않고도 깊이를 예측할 수 있습니다. 본 글에서는 단안 깊이 추정(monocular depth estimation)이 무엇인지, 어떻게 작동하는지, 그리고 실제 적용 사례 몇 가지를 살펴보겠습니다. 시작해 보겠습니다!
단안 깊이 추정 기술은 단일 이미지만으로 물체가 기계로부터 얼마나 멀리 떨어져 있는지 이해할 수 있게 합니다. 단일 카메라에만 의존하기 때문에 이 접근법은 비용 절감과 하드웨어 요구 사항 간소화 등 여러 장점을 지닙니다.
예를 들어, 단일 카메라로 작동하는 저렴한 가정용 로봇에 활용될 수 있습니다. 단일 이미지에서도 로봇 시스템은 가까운 벽과 먼 문을 식별하고 공간의 전체 깊이를 추론할 수 있습니다.
종종 단일 이미지는 정확한 스케일의 정보를 포함하지 않으므로, 단안 깊이 추정 기술은 일반적으로 상대적 깊이에 초점을 맞춥니다. 즉, 정확한 거리를 알지 못하더라도 어떤 물체가 더 가깝고 어떤 물체가 더 먼지 판단할 수 있습니다.
모델이 라이다(LiDAR)와 같은 센서의 깊이 측정값과 같은 지상 진실 거리 또는 절대 깊이가 포함된 데이터로 훈련될 때, 실제 단위(예: 미터)로 거리를 예측하는 법을 학습할 수 있습니다. 이러한 기준 데이터가 없어도 모델은 상대적 깊이를 추론할 수 있지만, 절대 거리를 안정적으로 추정할 수는 없습니다.
단안 깊이 추정 결과는 일반적으로 깊이 맵으로 출력되며, 이는 각 픽셀이 해당 장면의 부분이 얼마나 가깝거나 먼지를 나타내는 이미지입니다. 깊이 맵은 시각 시스템에 환경의 3차원 구조에 대한 기본적인 이해를 제공합니다.

깊이 추정에는 사용 가능한 센서, 하드웨어 제약 조건 및 정확도 요구 사항에 따라 여러 가지 접근 방식이 존재합니다. 전통적인 방법은 종종 다중 시점 또는 특수 센서를 활용하여 거리를 직접 측정하는 데 의존합니다.
일반적인 접근법 중 하나는 스테레오 비전으로, 약간 다른 시점에서 촬영된 두 개의 동기화된 이미지를 비교하여 깊이를 추정합니다. 두 이미지에서 대응하는 점들 사이의 차이를 측정함으로써 시스템은 물체가 카메라로부터 얼마나 멀리 떨어져 있는지 추론할 수 있습니다.
또 다른 접근 방식은 RGB-D(적색, 녹색, 청색 및 깊이) 시스템으로, 능동형 깊이 센서를 사용하여 각 픽셀의 거리를 직접 측정합니다. 이러한 시스템은 통제된 환경에서 정확한 깊이 정보를 제공할 수 있지만 추가 하드웨어가 필요합니다.
한편, 라이다 기반 방식은 레이저 펄스를 이용해 장면의 정밀한 3차원 표현을 생성합니다. 매우 정확하지만, 라이다 센서는 종종 고가이며 상당한 하드웨어 복잡성을 가중시킵니다.
반면 단안 깊이 추정법은 단일 RGB 이미지만을 이용해 깊이를 추론합니다. 다중 카메라나 특수 센서에 의존하지 않기 때문에 대규모 배포가 용이하며, 비용과 하드웨어 자원이 제한된 상황에서 적합한 선택지입니다.
단일 이미지로부터 깊이를 추정할 때, 단안 깊이 모델은 인간이 거리 판단에 본능적으로 활용하는 시각적 단서를 인식하도록 학습합니다. 이러한 단서에는 원근법 선, 물체 크기, 질감 밀도, 물체 중첩, 음영 등이 포함되며, 이 모든 요소가 물체가 카메라로부터 얼마나 멀리 떨어져 있는지에 대한 힌트를 제공합니다.
이러한 시각적 단서들은 함께 작용하여 깊이감을 형성합니다. 작게 보이거나 부분적으로 가려진 물체는 대개 더 멀리 있는 반면, 선명한 디테일과 더 크게 보이는 시각적 특징은 일반적으로 대상이 더 가깝다는 것을 암시합니다.
이러한 패턴을 학습하기 위해 단안 깊이 모델은 대규모 이미지 데이터셋을 기반으로 훈련되며, 종종 LiDAR나 스테레오 시스템과 같은 다른 출처에서 얻은 깊이 정보와 함께 사용됩니다. 훈련 과정에서 모델은 시각적 단서가 깊이와 어떻게 연관되는지 학습하여, 추론 시점에 단일 이미지로부터 거리를 추정할 수 있게 됩니다.
다양한 훈련 데이터를 통해 현대적인 비전 모델은 실내 및 실외 장면을 포함한 광범위한 환경 전반에 걸쳐 학습된 이해를 일반화할 수 있으며, 익숙하지 않은 시점도 처리할 수 있습니다.
다음으로, 단일 이미지로부터 깊이를 추정하는 데 사용되는 주요 접근법과 이러한 방법들이 시간이 지남에 따라 어떻게 발전해 왔는지 살펴보겠습니다.
초기 깊이 추정 방법은 카메라 기하학에 기반한 단순한 시각적 규칙에 의존했습니다. 원근법, 물체 크기, 한 물체가 다른 물체를 가리는지 여부와 같은 단서들이 거리를 추정하는 데 사용되었습니다.
예를 들어, 두 개의 유사한 물체가 서로 다른 크기로 나타날 때, 더 작은 물체가 더 멀리 있다고 가정했습니다. 이러한 접근법은 조명, 카메라 위치, 장면 구성과 같은 요소가 일관되게 유지되는 통제된 환경에서는 상당히 효과적이었습니다.
그러나 실제 장면에서는 이러한 가정들이 종종 무너진다. 조명 변화, 시점 변화, 장면 복잡성 증가는 깊이 추정의 신뢰성을 떨어뜨려 통제되지 않은 환경에서 기존 방법의 효과성을 제한한다.
초기 기계 학습 방법은 데이터로부터 직접 패턴을 학습함으로써 깊이 추정에 더 많은 유연성을 가져왔다. 고정된 기하학적 규칙에만 의존하는 대신, 이러한 모델들은 시각 정보와 거리 사이의 관계를 학습하려 시도했으며, 가장자리, 질감, 색상 변화와 같은 단서를 기반으로 깊이 예측을 회귀 문제로 다루었다.
이러한 특징들을 선택하는 것은 과정의 핵심 부분이었다. 엔지니어들은 어떤 시각적 신호를 추출할지, 그리고 이를 어떻게 표현할지 결정해야 했으며, 모델의 성능은 이러한 선택에 크게 좌우되었다.
이 접근법은 이전 방법들보다 효과적이었지만 여전히 한계가 존재했다. 선택된 특징들이 중요한 맥락을 포함하지 못할 경우 깊이 예측의 정확도가 떨어졌다. 장면이 더욱 복잡해지고 다양해질수록, 이러한 모델들은 신뢰할 수 있는 결과를 생성하는 데 종종 어려움을 겪었다.
대부분의 현대적 단안 깊이 추정 시스템은 딥 러닝을 사용하는데, 이는 데이터로부터 복잡한 패턴을 학습할 수 있는 다층 신경망을 의미한다. 이러한 모델들은 이미지로부터 직접 깊이를 예측하고 깊이 맵을 생성하도록 학습한다.
많은 접근법은 경계선과 형태 같은 패턴을 감지하여 이미지를 처리하도록 설계된 신경망 유형인 컨볼루션 신경망(CNN)을 기반으로 구축됩니다. 이러한 모델은 종종 인코더-디코더 구조를 사용합니다: 인코더는 이미지에서 시각적 특징을 추출하고, 디코더는 해당 특징을 깊이 맵으로 변환합니다. 이미지를 여러 스케일로 처리하면 모델이 장면의 전체적인 레이아웃을 포착하면서도 명확한 객체 경계를 포착하는 데 도움이 됩니다.
최근 모델들은 이미지 내 서로 다른 부분 간의 관계를 이해하는 데 중점을 둡니다. 트랜스포머 기반 및 비전 트랜스포머(ViT) 모델은 어텐션 메커니즘을 활용하여 이미지의 어느 영역이 가장 관련성이 높은지 식별하고 멀리 떨어진 영역들 간의 관계를 파악할 수 있게 합니다. 이를 통해 모델은 전체 장면에 걸쳐 깊이에 대한 보다 일관된 이해를 구축할 수 있습니다.
일부 시스템은 두 아이디어를 결합합니다. 하이브리드 CNN-트랜스포머 모델은 CNN을 사용하여 정밀한 국소적 세부 사항을 포착하고, 트랜스포머를 사용하여 장면의 전체적 맥락을 모델링합니다. 이는 종종 정확도를 향상시키지만, 일반적으로 추가 메모리 및 처리 능력과 같은 더 많은 계산 자원이 필요합니다.
단안 깊이 추정 기술을 배우면서, 깊이 이해가 왜 비전 기반 AI 시스템에서 그토록 중요한 부분인지 궁금해할 수 있습니다.
시스템이 사물과 표면의 거리를 추정할 수 있을 때, 장면의 구조와 서로 다른 요소들의 관계를 더 잘 이해하게 됩니다. 이러한 공간 인식 능력은 특히 자율 주행과 같은 실제 응용 분야에서 신뢰할 수 있는 의사 결정을 내리는 데 필수적입니다.
깊이 정보는 다른 컴퓨터 비전 작업에도 유용한 맥락을 제공합니다. 예를 들어, Ultralytics 같은 모델이 지원하는 객체 탐지 기술은 장면에 무엇이 존재하는지 시스템에 알려줄 수 있지만, 깊이 정보는 해당 객체들이 카메라와 서로에 대해 상대적으로 어디에 위치하는지 파악하는 데 도움을 줍니다.
이러한 기능들은 함께 3D 지도 구축, 복잡한 환경 내 탐색, 장면 전체 이해 등 다양한 비전 AI 애플리케이션을 가능하게 합니다.
로봇과 자율주행 차량은 이 정보를 바탕으로 안전하게 이동하고 장애물을 회피하며 실시간 변화에 대응합니다. 예를 들어 테슬라의 비전 기반 주행 방식은 라이다(LiDAR) 대신 카메라 영상과 깊이 추정 기술을 결합해 도로 상의 물체와의 거리 및 위치를 파악합니다.
모델 아키텍처는 다양하지만, 대부분의 단안 깊이 추정 모델은 단일 이미지를 깊이 맵으로 변환하는 유사한 과정을 따릅니다. 주요 단계에 대한 간략한 개요는 다음과 같습니다:
방금 논의한 과정은 이미 훈련된 모델 또는 사전 훈련된 모델이 존재한다는 전제하에 진행됩니다. 그렇다면 단안 깊이 추정 모델의 훈련은 실제로 어떻게 이루어질까요?
훈련은 네트워크가 효율적으로 처리할 수 있도록 이미지 데이터를 준비하는 것으로 시작됩니다. 입력 이미지는 일관된 크기로 크기 조정 및 정규화된 후 모델을 통과하여 각 픽셀의 거리를 추정하는 예측 깊이 맵을 생성합니다.
예측된 깊이 맵은 손실 함수를 사용하여 참조 깊이 데이터와 비교됩니다. 이 손실 함수는 모델의 예측값이 실제 깊이(ground-truth depth)로부터 얼마나 멀리 떨어져 있는지를 측정합니다. 이 손실 값은 모델의 현재 오차를 나타내며 개선을 위한 신호를 제공합니다.
최적화기는 이 신호를 활용하여 내부 가중치를 조정함으로써 모델을 업데이트합니다. 이를 위해 최적화기는 손실 함수가 각 모델 매개변수에 대해 어떻게 변화하는지를 나타내는 기울기를 계산하고, 이러한 업데이트를 여러 에포크(epoch) 또는 훈련 데이터셋 전체를 여러 번 통과하는 동안 반복적으로 적용합니다.
이 반복적 지도 학습 훈련 과정은 학습률(각 업데이트 단계의 크기를 제어) 및 배치 크기(한 번에 처리되는 이미지 수를 결정)와 같은 하이퍼파라미터에 의해 안내됩니다. 훈련에는 대량의 수학적 연산이 수반되므로, 일반적으로 병렬 계산에 탁월한 그래픽 처리 장치(GPU)를 사용하여 가속화됩니다.
훈련이 완료되면 모델은 검증 세트에 대해 표준 평가 지표를 사용하여 평가됩니다. 검증 세트는 훈련 과정에서 사용되지 않은 이미지로 구성됩니다. 이 평가는 모델이 새로운 데이터에 얼마나 잘 일반화되는지 측정하는 데 도움이 됩니다.
훈련된 모델은 이후 새로운 시나리오에 재사용되거나 미세 조정될 수 있습니다. 전반적으로 이 훈련 과정은 단안 깊이 추정 모델이 일관된 깊이 추정값을 생성하도록 하여, 3D 재구성과 실제 환경 적용과 같은 하위 작업에 필수적인 역할을 합니다.
단안 깊이 추정 기술은 모델이 작은 시각적 세부사항이 아닌 전체 장면을 이해하는 능력이 향상되면서 급속히 발전해 왔습니다. 초기 접근법들은 특히 복잡한 환경에서 고르지 못한 깊이 맵을 생성하는 경우가 많았습니다.
최근 arXiv에 게재된 연구에서 볼 수 있듯, 최신 모델들은 글로벌 컨텍스트에 더 중점을 두어 깊이 예측이 보다 안정적이고 현실적으로 보이도록 합니다. MiDaS 및 DPT와 같은 잘 알려진 모델들은 다양한 고해상도 데이터셋으로부터 깊이를 학습하고 여러 장면에 걸쳐 잘 일반화함으로써 이러한 변화를 주도했습니다.
ZoeDepth 및 Depth Anything V2를 포함한 최신 모델들은 다양한 설정에서 강력한 성능을 유지하면서 규모 일관성을 개선함으로써 이러한 연구를 발전시켰습니다. 이러한 유형의 진전은 KITTI 및 NYU와 같은 실외 및 실내 장면을 모두 포함하는 일반적인 벤치마크 데이터셋을 사용하여 측정되는 경우가 많습니다.
또 다른 뚜렷한 추세는 정확성과 실용성 사이의 균형이다. 소형 모델은 속도에 최적화되어 에지 또는 모바일 기기에서 실시간으로 실행될 수 있는 반면, 대형 모델은 높은 해상도와 장거리 깊이 정확도를 우선시한다.
다음으로, 단일 이미지로부터 장면의 3차원 구조를 추론하기 위해 단안 깊이 추정 기술이 어떻게 활용되는지 보여주는 실제 사례들을 살펴보겠습니다.
이러한 모든 경우에 깊이 정보는 시각적 단서로부터 추론된 추정값이지 정확한 측정이 아니라는 점을 명심해야 합니다. 따라서 단안 깊이 추정 기술은 상대적 배치와 공간적 관계를 이해하는 데 유용하지만, LiDAR나 스테레오 시스템처럼 거리를 정확히 측정하도록 설계된 센서를 대체할 수는 없습니다.
드론은 종종 GPS 신호가 불안정한 환경에서 운용됩니다. 예를 들어 숲, 건설 현장, 재난 지역 또는 밀집된 도시 지역 등이 해당됩니다. 이러한 조건에서 안전하게 비행하려면 주변 지형을 파악하고 장애물까지의 거리를 알아야 합니다. 과거에는 이를 위해 일반적으로 라이다(LiDAR)나 스테레오 카메라 같은 센서를 추가해야 했는데, 이는 무게, 전력 소모량 및 전체 비용을 증가시켰습니다.
단안 깊이 추정 기술은 보다 간단한 대안이다. 단일 RGB 카메라만으로도 드론은 이미지로부터 깊이를 추정하고 주변 환경에 대한 기본적인 3D 이해를 구축할 수 있다. 이를 통해 건물, 나무, 지형의 급격한 변화와 같은 detect 실시간으로 비행 경로를 조정할 수 있다.
이러한 깊이 추정값은 장애물 회피, 고도 제어, 안전한 착륙 등 핵심 항법 작업을 지원합니다. 그 결과 경량 드론은 특수 깊이 센서에 의존하지 않고도 매핑, 검사, 항법 작업을 수행할 수 있습니다.

자율주행 차량은 일반적으로 레이저 펄스를 이용해 거리를 측정하고 도로의 3차원 시각을 구축하는 라이다 센서에 크게 의존합니다. 매우 정확하지만, 라이다는 날카로운 도로 고개, 가파른 경사, 가림 현상 또는 갑작스러운 차량 피치 변화에 어려움을 겪을 수 있으며, 때로는 빈약하거나 누락된 깊이 데이터를 반환하기도 합니다.
단안 깊이 추정 기술은 라이다 데이터가 불완전한 경우에도 단일 RGB 이미지로부터 고밀도 깊이 정보를 제공함으로써 이러한 공백을 메울 수 있습니다. 자율주행차가 언덕 정상을 향해 고속으로 접근하는 상황을 생각해 보십시오. 라이다 빔은 정상 너머 도로를 지나쳐 버릴 수 있어, 정면으로 펼쳐질 상황에 대한 불확실성을 남깁니다.
그러나 카메라 기반 깊이 추정 기술은 원근법과 질감 같은 시각적 단서를 통해 도로 형태를 추론할 수 있어, 라이다 데이터가 안정화될 때까지 차량이 신뢰할 수 있는 인지 능력을 유지하는 데 도움을 줍니다. 라이다와 단안 깊이 추정 기술을 함께 활용하면 까다로운 주행 환경에서도 보다 안정적인 인지 및 안전한 제어가 가능해집니다.

로봇은 종종 상세한 지도가 없는 장소에서 작동되며, 환경 조건이 끊임없이 변화합니다. 안전하게 이동하기 위해서는 주변 공간의 크기와 장애물의 위치를 파악할 수 있는 신뢰할 수 있는 감각이 필요합니다.
단안 깊이 추정 기술은 무겁거나 고가의 하드웨어에 의존하지 않고 단일 RGB 카메라만으로 이러한 공간 인식을 제공할 수 있습니다. 깊이 추정 모델은 규모와 원근법 같은 시각적 단서를 학습함으로써 주변 환경의 고밀도 깊이 맵을 생성할 수 있습니다. 이를 통해 로봇은 표면과 물체까지의 거리를 명확하게 파악할 수 있습니다.
특히 깊이 정보가 물체 탐지나 의미적 분할 같은 컴퓨터 비전 작업과 결합될 때, 로봇은 주변 환경에 대한 보다 완전한 시각을 확보할 수 있습니다. 로봇은 물체를 식별하고, 그 거리를 이해하며, 안전한 이동 경로를 결정할 수 있습니다. 이는 장애물 회피, 자유 공간 탐지, 실시간 경로 계획 수립을 지원합니다.

단안 깊이 추정법을 사용할 때의 주요 장점은 다음과 같습니다:
단안 깊이 추정 기술은 분명한 장점을 제공하지만, 고려해야 할 몇 가지 한계점이 있습니다:
단안 깊이 추정 기술은 흥미로운 연구 분야이지만, 실제 적용 가능성과 한계점을 이해하는 것이 중요합니다. 이 기술이 산출하는 거리는 실제 세계에서 측정된 정확한 값이 아닌, 모델이 이미지에서 인식한 내용을 기반으로 한 추정값입니다.
이로 인해 결과의 품질은 조명, 장면의 복잡성, 장면이 모델 훈련 데이터와 얼마나 유사한지 등의 요소에 따라 달라질 수 있습니다. 단안 깊이 추정 기술은 일반적으로 가까운 것과 먼 것을 구분하는 데는 효과적이지만, 정확한 거리를 필요로 할 때는 신뢰할 수 없습니다.
정밀도가 매우 중요한 상황, 예를 들어 안전이 최우선인 시스템, 산업용 검사, 또는 물체와 매우 정밀하게 상호작용해야 하는 로봇의 경우 깊이를 직접 측정해야 합니다. 라이다(LiDAR), 레이더, 스테레오 카메라 또는 구조광 시스템과 같은 센서들은 이를 위해 설계되었으며 훨씬 더 신뢰할 수 있는 거리 정보를 제공합니다.
단안 깊이 추정 역시 시각적으로 어려운 조건에서는 어려움을 겪을 수 있습니다. 불량한 조명, 강한 그림자, 반사성 또는 투명 표면, 안개, 연기, 또는 시각적 질감이 거의 없는 장면들은 모두 깊이 추정의 신뢰도를 떨어뜨릴 수 있습니다. 장거리에서의 깊이 추정 역시 전용 센서가 일반적으로 더 잘 작동하는 또 다른 사례입니다.
실제 환경에서의 솔루션으로 볼 때, 단안 깊이 추정 기술은 독립적인 솔루션보다는 보조 도구로서 가장 효과적입니다. 이는 유용한 공간적 맥락을 제공하고, 다른 센서들이 한계에 부딪혔을 때 그 공백을 메우며, 전체적인 장면 이해도를 향상시킬 수 있습니다. 그러나 정확성, 안전성 또는 엄격한 신뢰성 요구사항이 중요한 경우에는 깊이 정보의 유일한 출처가 되어서는 안 됩니다.
단안 깊이 추정 기술은 단일 카메라 이미지만으로 물체의 거리를 추정할 수 있게 하는 컴퓨터 비전 기법입니다. 이러한 AI 모델은 원근법, 물체 크기, 질감, 음영과 같은 시각적 단서를 학습함으로써 LiDAR나 스테레오 카메라 같은 센서에 의존하지 않고도 장면의 3차원 구조를 추론할 수 있습니다. 이로 인해 단안 깊이 추정 기술은 자율 주행, 로봇 공학, 3D 장면 이해와 같은 응용 분야에서 비용 효율적이고 확장 가능한 접근법으로 활용됩니다.
비전 AI에 대해 더 알아보려면 GitHub 저장소를 방문하고 커뮤니티에 참여하세요. 로봇 공학 분야의 AI와 제조업의 컴퓨터 비전에 관한 솔루션 페이지를 확인해 보세요. 컴퓨터 비전을 지금 바로 시작할 수 있는 라이선스 옵션을 알아보세요!