단안 깊이 추정이란 무엇인가요? 개요
단안 깊이 추정의 작동 방식과 센서 기반 깊이 측정 방식과의 비교, 그리고 이것이 어떻게 비전 시스템에서 확장 가능한 3D 인식을 가능하게 하는지 배우십시오.
자율주행 자동차는 안전한 주행을 위해 주변 상황을 이해하도록 설계되었습니다. 이는 단순히 보행자나 다른 차량과 같은 객체를 인식하는 것을 넘어선 능력을 의미합니다.
또한 올바르게 대응하기 위해 해당 객체가 얼마나 멀리 있는지 파악해야 합니다. 그러나 기계에 이러한 거리 감각을 부여하는 것은 간단하지 않습니다. 인간과 달리 기계는 이미지로부터 깊이를 자연스럽게 인지하지 못하며, 이를 수행하는 방법을 명시적으로 학습해야 합니다.
이러한 이유 중 하나는 대부분의 카메라가 세상을 평평한 2차원 이미지로 포착하기 때문입니다. 일상적인 환경에서 시스템이 안정적으로 작동해야 할 때, 이러한 이미지를 실제 깊이와 3D 구조를 반영하는 무언가로 변환하는 것은 까다로운 일입니다.
흥미롭게도 시각 데이터를 해석하고 이해하는 데 중점을 두는 AI의 한 분야인 computer vision은 기계가 이미지로부터 세상을 더 잘 이해할 수 있게 해줍니다. 예를 들어, 단안 depth estimation은 단일 카메라 이미지만을 사용하여 객체까지의 거리를 추정하는 컴퓨터 비전 기술입니다.
객체 크기, 원근감, 질감, 명암과 같은 시각적 단서를 학습함으로써 이 모델들은 LiDAR(Light Detection and Ranging)나 스테레오 카메라와 같은 추가 센서에 의존하지 않고도 깊이를 예측할 수 있습니다. 이 글에서는 단안 깊이 추정이 무엇인지, 어떻게 작동하는지, 그리고 실제 적용 사례를 살펴봅니다. 시작해 보겠습니다!
Link to this section단안 깊이 추정에 대한 간략한 소개#
단안 깊이 추정을 통해 기계는 단 하나의 이미지만 사용하여 객체와의 거리를 이해할 수 있습니다. 단일 camera에만 의존하기 때문에 이 접근 방식은 낮은 비용과 더 간단한 하드웨어 요구 사항을 포함하여 여러 가지 장점이 있습니다.
예를 들어, 이는 단일 카메라로 작동하는 저렴한 가정용 로봇에 사용될 수 있습니다. 로봇 시스템은 단일 이미지에서도 어떤 벽이 더 가깝고 어떤 문이 더 멀리 있는지 식별하며 공간의 전체적인 깊이를 추론할 수 있습니다.
종종 단일 이미지에는 올바른 축척의 정보가 포함되어 있지 않으므로 단안 깊이 추정은 일반적으로 상대적인 깊이에 초점을 맞춥니다. 즉, 정확한 거리를 알 수 없더라도 어떤 객체가 더 가깝고 어떤 객체가 더 멀리 있는지 판단할 수 있습니다.
모델이 LiDAR와 같은 센서의 깊이 측정값과 같은 지상 기준(ground-truth) 거리 또는 절대 깊이가 포함된 데이터로 학습되면, 미터와 같은 실제 단위로 거리를 예측하도록 학습할 수 있습니다. 이러한 참조 데이터가 없으면 모델은 여전히 상대적인 깊이를 추론할 수는 있지만 절대 거리를 안정적으로 추정할 수는 없습니다.
단안 깊이 추정의 출력은 일반적으로 깊이 맵(depth map)이며, 이는 각 픽셀이 장면의 해당 부분이 얼마나 가깝거나 먼지를 나타내는 이미지입니다. 깊이 맵은 비전 시스템에 환경의 3D 구조에 대한 기본적인 이해를 제공합니다.

그림 1. 단안 깊이 추정을 사용하여 생성된 예측 깊이 맵의 예 (출처)
Link to this section센서에서 이미지로: 깊이 추정하기#
깊이 추정은 사용 가능한 센서, 하드웨어 제약 조건 및 정확도 요구 사항에 따라 여러 가지 방식으로 접근할 수 있습니다. 기존 방식은 종종 거리를 직접 측정하기 위해 다중 시점이나 특수 센서에 의존합니다.
일반적인 접근 방식 중 하나는 스테레오 비전으로, 약간 다른 시점에서 캡처된 두 개의 동기화된 이미지를 비교하여 깊이를 추정합니다. 시스템은 두 이미지의 대응하는 점 간의 차이를 측정하여 객체가 카메라로부터 얼마나 멀리 떨어져 있는지 추론할 수 있습니다.
또 다른 접근 방식은 RGB-D(Red, Green, Blue, and Depth) 시스템으로, 이는 능동형 깊이 센서를 사용하여 각 픽셀에서의 거리를 직접 측정합니다. 이러한 시스템은 통제된 환경에서 정확한 깊이 정보를 제공할 수 있지만 추가적인 하드웨어가 필요합니다.
한편, LiDAR 기반 방식은 레이저 펄스를 사용하여 장면의 정밀한 3차원 표현을 생성합니다. LiDAR 센서는 매우 정확하지만 종종 비용이 많이 들고 상당한 하드웨어 복잡성을 추가합니다.
대조적으로, 단안 깊이 추정은 단일 RGB 이미지만을 사용하여 깊이를 추론합니다. 여러 대의 카메라나 특수 센서에 의존하지 않기 때문에 대규모로 배포하기가 더 쉽고 비용 및 하드웨어 리소스가 제한된 경우 좋은 선택입니다.
Link to this section단일 이미지에서 깊이 학습하기#
단일 이미지에서 깊이를 추정할 때, 단안 깊이 모델은 인간이 거리를 판단하기 위해 본능적으로 사용하는 시각적 단서를 인식하도록 학습합니다. 이러한 단서에는 원근선, 객체 크기, 질감 밀도, 객체 중첩, 명암이 포함되며, 이 모든 요소는 객체가 카메라로부터 얼마나 떨어져 있는지에 대한 힌트를 제공합니다.
이러한 단서들은 함께 작용하여 깊이감을 만들어냅니다. 더 작게 보이거나 부분적으로 가려진 객체는 종종 더 멀리 있으며, 더 선명한 세부 사항과 더 큰 시각적 크기는 보통 무언가가 더 가깝다는 것을 나타냅니다.
이러한 패턴을 학습하기 위해 단안 깊이 모델은 LiDAR나 스테레오 시스템과 같은 다른 소스에서 얻은 깊이 정보와 쌍을 이루는 대규모 이미지 데이터셋으로 학습됩니다. 학습 과정에서 모델은 시각적 단서가 깊이와 어떻게 관련되는지 학습하며, 이를 통해 추론 단계에서 단일 이미지로부터 거리를 추론할 수 있게 됩니다.
다양한 학습 데이터를 통해 현대 비전 모델은 실내외 장면을 포함한 광범위한 환경에서 이 학습된 이해를 일반화할 수 있으며 익숙하지 않은 시점도 처리할 수 있습니다.
Link to this section다양한 단안 깊이 추정 기술 살펴보기#
다음으로, 단일 이미지에서 깊이를 추정하는 데 사용되는 주요 접근 방식과 이러한 방식이 시간이 지남에 따라 어떻게 발전해 왔는지 살펴보겠습니다.
Link to this section고전적 및 기하학적 기반 접근 방식#
초기 깊이 추정 방식은 camera geometry와 관련된 간단한 시각적 규칙에 의존했습니다. 원근감, 객체 크기, 한 객체가 다른 객체를 가리는지 여부와 같은 단서들이 거리를 추정하는 데 사용되었습니다.
예를 들어, 두 개의 유사한 객체가 다른 크기로 나타날 때 더 작은 객체가 더 멀리 있는 것으로 간주되었습니다. 이러한 방식은 조명, 카메라 위치, 장면 레이아웃과 같은 요소가 일관되게 유지되는 통제된 환경에서 상당히 잘 작동했습니다.
그러나 실제 장면에서는 이러한 가정이 종종 깨집니다. 조명 변화, 시점 변경, 장면 복잡성 증가로 인해 깊이 추정 결과가 불안정해질 수 있으며, 이는 통제되지 않은 환경에서 고전적 방식의 효과를 제한합니다.
Link to this section초기 머신 러닝 접근 방식#
초기 머신 러닝 방식은 데이터로부터 직접 패턴을 학습함으로써 깊이 추정에 더 많은 유연성을 가져왔습니다. 고정된 기하학적 규칙에만 의존하는 대신, 이러한 모델들은 시각 정보와 거리 사이의 관계를 학습하려고 시도했으며, 깊이 예측을 가장자리, 질감, 색상 변화와 같은 단서에 기반한 회귀 문제로 처리했습니다.
이러한 특징을 선택하는 것이 프로세스의 핵심 부분이었습니다. 엔지니어는 어떤 시각적 신호를 추출하고 이를 어떻게 표현할지 결정해야 했으며, 모델의 성능은 이러한 선택에 크게 의존했습니다.
이 접근 방식은 이전 방식보다 더 잘 작동했지만 여전히 한계가 있었습니다. 선택된 특징에 중요한 맥락이 부족하면 깊이 예측의 정확도가 떨어졌습니다. 장면이 더 복잡하고 다양해짐에 따라 이러한 모델은 신뢰할 수 있는 결과를 생성하는 데 종종 어려움을 겪었습니다.
Link to this section딥러닝 알고리즘#
대부분의 현대 단안 깊이 추정 시스템은 데이터에서 복잡한 패턴을 학습할 수 있는 많은 레이어를 가진 신경망인 딥러닝을 사용합니다. 이러한 모델은 이미지에서 직접 깊이를 예측하는 방법을 배우고 깊이 맵을 생성합니다.
많은 접근 방식이 가장자리나 모양과 같은 패턴을 감지하여 이미지를 처리하도록 설계된 신경망 유형인 convolutional neural networks (CNNs)를 사용하여 구축됩니다. 이러한 모델은 종종 인코더-디코더 설정을 사용합니다. 인코더는 이미지에서 시각적 특징을 추출하고, 디코더는 해당 특징을 깊이 맵으로 변환합니다. 여러 스케일에서 이미지를 처리하면 모델이 장면의 전체 레이아웃을 파악하면서도 명확한 객체 경계를 캡처하는 데 도움이 됩니다.
더 최근 모델들은 이미지의 서로 다른 부분 간의 관계를 이해하는 데 중점을 둡니다. Transformer 기반 모델 및 Vision Transformer(ViT) 모델은 어텐션 메커니즘을 사용하여 모델이 이미지의 어떤 영역이 가장 관련성이 높은지 식별하고 멀리 떨어진 영역을 서로 연관시킬 수 있도록 합니다. 이는 모델이 전체 장면에서 더 일관된 깊이 이해를 구축하는 데 도움이 됩니다.
일부 시스템은 두 아이디어를 모두 결합합니다. 하이브리드 CNN-Transformer 모델은 CNN을 사용하여 미세한 로컬 세부 정보를 캡처하고 Transformer를 사용하여 장면의 글로벌 맥락을 모델링합니다. 이는 종종 정확도를 향상시키지만 일반적으로 더 많은 메모리 및 처리 성능과 같은 계산 리소스가 필요합니다.
Link to this section비전 AI 시스템에서 깊이 이해가 중요한 이유#
단안 깊이 추정에 대해 배우면서 왜 깊이 이해가 비전 기반 AI 시스템의 중요한 부분인지 궁금할 수 있습니다.
시스템이 객체와 표면이 얼마나 멀리 있는지 추정할 수 있으면 장면이 어떻게 배치되어 있고 다른 요소들이 서로 어떻게 관련되어 있는지 더 잘 이해하게 됩니다. 이러한 공간 인식은 자율주행과 같은 실제 응용 분야에서 신뢰할 수 있는 결정을 내리는 데 필수적입니다.
깊이 정보는 또한 다른 컴퓨터 비전 작업에 가치 있는 맥락을 추가합니다. 예를 들어 Ultralytics YOLO26과 같은 모델이 지원하는 객체 감지는 시스템에 장면 내에 무엇이 존재하는지 알려줄 수 있지만, 깊이는 해당 객체들이 카메라 및 서로에 비해 어디에 위치하는지 답하는 데 도움이 됩니다.
이러한 기능들은 결합하여 3D 맵 구축, 복잡한 환경 탐색, 장면을 전체적으로 이해하는 것과 같은 광범위한 비전 AI 응용 분야를 가능하게 합니다.
로봇과 자율주행 차량은 안전하게 이동하고 장애물을 피하며 실시간으로 변화에 대응하기 위해 이 정보에 의존합니다. 예를 들어 Tesla의 vision-only 주행 접근 방식은 객체가 얼마나 멀리 있는지와 도로 위에서 어떻게 배치되어 있는지 이해하기 위해 LiDAR 대신 카메라 이미지와 깊이 추정을 결합하여 사용합니다.
Link to this section단안 깊이 추정 모델 작동 방식#
모델 아키텍처는 다양하지만 대부분의 단안 깊이 추정 모델은 단일 이미지를 깊이 맵으로 변환하기 위해 유사한 프로세스를 따릅니다. 관련된 주요 단계에 대한 간략한 개요는 다음과 같습니다.
- 입력 및 전처리: 워크플로는 입력 이미지로 시작합니다. 모델에 전달되기 전에 원본 이미지는 일반적으로 신경망이 이미지 데이터를 효율적으로 처리하는 데 사용하는 형식인 텐서로 크기 조정, 정규화 및 변환됩니다.
- 특징 추출: 인코더 네트워크는 이미지를 분석하여 의미 있는 시각적 특징을 추출합니다. 이러한 특징은 질감, 객체 경계 및 장면의 전체 레이아웃과 같은 정보를 캡처합니다. 대부분의 모델은 미세한 세부 정보와 글로벌 구조를 모두 이해할 수 있도록 다중 스케일에서 작동합니다.
- 깊이 추론: 추출된 특징을 사용하여 모델은 로컬 세부 정보와 글로벌 맥락을 결합하여 장면의 공간적 관계를 추론합니다. 이 단계에서 모델은 이미지의 어떤 영역이 카메라에 더 가깝고 어떤 영역이 더 멀리 있는지 학습합니다.
- 깊이 맵 생성: 그런 다음 디코더가 이 정보를 밀집된 깊이 맵으로 변환합니다. 이미지의 각 픽셀에는 정확도와 일관성을 높이기 위해 여러 스케일의 예측을 혼합하여 깊이 값이 할당됩니다.
Link to this section단안 깊이 추정 모델 학습 방식#
방금 논의한 프로세스는 이미 학습되었거나 사전 학습된 모델이 있다고 가정합니다. 하지만 단안 깊이 추정 모델 학습은 실제로 어떻게 작동할까요?
학습은 네트워크가 효율적으로 처리할 수 있도록 이미지 데이터를 준비하는 것으로 시작합니다. 입력 이미지는 일관된 스케일로 크기가 조정되고 정규화된 다음, 모델을 통과하여 각 픽셀에서의 거리를 추정하는 예측 깊이 맵을 생성합니다.
그런 다음 예측된 깊이 맵은 모델의 예측이 지상 기준 깊이와 얼마나 떨어져 있는지 측정하는 손실 함수(loss function)를 사용하여 참조 깊이 데이터와 비교됩니다. 이 손실 값은 모델의 현재 오차를 나타내며 개선을 위한 신호를 제공합니다.
옵티마이저는 이 신호를 사용하여 내부 가중치를 조정하여 모델을 업데이트합니다. 이를 위해 옵티마이저는 각 모델 매개변수에 대해 손실이 어떻게 변하는지 설명하는 기울기(gradient)를 계산하고, 여러 에포크(epochs) 또는 학습 데이터셋 전체 통과에 걸쳐 이러한 업데이트를 반복적으로 적용합니다.
이 반복적인 지도 학습 프로세스는 각 업데이트 단계의 크기를 제어하는 학습률(learning rate)과 한 번에 처리되는 이미지 수를 결정하는 배치 크기(batch size)와 같은 하이퍼파라미터에 의해 안내됩니다. 학습은 수많은 수학적 연산을 포함하기 때문에 병렬 계산에 뛰어난 GPU(그래픽 처리 장치)를 사용하여 가속화됩니다.
학습이 완료되면 모델은 학습 중에 사용되지 않은 이미지로 구성된 검증 세트에서 표준 평가 지표를 사용하여 평가됩니다. 이 평가는 모델이 새로운 데이터로 얼마나 잘 일반화되는지 측정하는 데 도움이 됩니다.
학습된 모델은 재사용하거나 새로운 시나리오를 위해 미세 조정할 수 있습니다. 전반적으로 이 학습 프로세스를 통해 단안 깊이 추정 모델은 3D 재구성 및 실제 배포와 같은 다운스트림 작업에 필수적인 일관된 깊이 추정치를 생성할 수 있습니다.
Link to this section최신 모델 및 연구 동향 살펴보기#
단안 깊이 추정은 모델이 작은 시각적 세부 사항뿐만 아니라 전체 장면을 이해하는 능력이 향상되면서 빠르게 개선되었습니다. 초기 방식은 특히 복잡한 환경에서 불균일한 깊이 맵을 생성하는 경우가 많았습니다.
arXiv에 발표된 최근 연구에서 볼 수 있듯이 새로운 모델들은 글로벌 맥락에 더 집중하며, 이는 더 안정적이고 사실적으로 보이는 깊이 예측으로 이어집니다. MiDaS 및 DPT와 같은 잘 알려진 모델들은 다양하고 고해상도인 데이터셋에서 깊이를 학습하고 많은 장면에서 잘 일반화함으로써 이러한 변화를 주도했습니다.
ZoeDepth 및 Depth Anything V2를 포함한 더 최근의 모델들은 광범위한 환경에서 강력한 성능을 유지하면서 축척 일관성을 개선함으로써 이 연구를 기반으로 발전하고 있습니다. 이러한 유형의 진보는 종종 실외 및 실내 장면을 모두 포괄하는 KITTI 및 NYU와 같은 일반적인 벤치마크 데이터셋을 사용하여 측정됩니다.
또 다른 명확한 추세는 정확도와 실용성의 균형을 맞추는 것입니다. 더 작은 모델은 속도에 최적화되어 에지나 모바일 장치에서 실시간으로 실행될 수 있으며, 더 큰 모델은 더 높은 해상도와 장거리 깊이 정확도를 우선시합니다.
Link to this section단안 깊이 추정 응용 분야#
다음으로 단안 깊이 추정이 단일 이미지에서 장면의 3D 구조를 추론하는 데 어떻게 사용되는지 보여주는 몇 가지 실제 사례를 살펴보겠습니다.
이 모든 경우에서 깊이 정보는 시각적 단서로부터 추론된 추정치이며 정밀한 측정값이 아니라는 점을 명심하는 것이 중요합니다. 이로 인해 단안 깊이 추정은 상대적인 레이아웃과 공간 관계를 이해하는 데 유용하지만, LiDAR나 스테레오 시스템과 같이 정확하게 거리를 측정하기 위해 설계된 센서를 대체할 수는 없습니다.
Link to this section드론 기반 지형 매핑 및 탐색#
Drones는 종종 숲, 건설 현장, 재난 지역 또는 밀집된 도시 지역과 같이 GPS 신호가 신뢰할 수 없는 환경에서 작동합니다. 이러한 환경에서 안전하게 비행하려면 주변 지형을 이해하고 장애물이 얼마나 멀리 있는지 알아야 합니다. 과거에는 일반적으로 LiDAR나 스테레오 카메라와 같은 센서를 추가해야 했으며, 이는 무게, 전력 소비 및 전체 비용을 증가시켰습니다.
단안 깊이 추정은 더 간단한 대안입니다. 단일 RGB 카메라만 사용하여 드론은 이미지에서 깊이를 추정하고 환경에 대한 기본적인 3D 이해를 구축할 수 있습니다. 이를 통해 건물, 나무 또는 지형의 급격한 변화와 같은 장애물을 감지하고 실시간으로 비행 경로를 조정할 수 있습니다.
이러한 깊이 추정치는 장애물 회피, 고도 제어 및 안전한 착륙을 포함한 핵심 탐색 작업을 지원합니다. 결과적으로 경량 드론은 특수 깊이 센서에 의존하지 않고도 매핑, 검사 및 탐색 작업을 수행할 수 있습니다.

그림 2. 단안 깊이 추정은 드론 이미지를 분석하는 데 사용될 수 있습니다 (출처)
Link to this section자율 레이싱 차량의 사각지대 채우기#
자율주행 차량은 일반적으로 레이저 펄스를 사용하여 거리를 측정하고 도로의 3D 뷰를 구축하는 LiDAR 센서에 크게 의존합니다. LiDAR는 매우 정확하지만 가파른 도로 정상, 급경사, 폐색 또는 갑작스러운 차량 피치에 어려움을 겪을 수 있으며 때때로 희소하거나 누락된 깊이 데이터를 반환하기도 합니다.
단안 깊이 추정은 LiDAR 데이터가 불완전할 때에도 단일 RGB 이미지에서 밀집된 깊이 정보를 제공하여 이러한 간극을 메우는 데 도움이 될 수 있습니다. self-driving car가 빠른 속도로 언덕 정상에 접근하는 시나리오를 생각해 보십시오. LiDAR 빔은 정상 너머의 도로를 지나칠 수 있으며, 앞쪽에 무엇이 있는지에 대한 불확실성을 남깁니다.
그러나 카메라 기반 깊이 추정은 원근감과 질감과 같은 시각적 단서로부터 도로의 모양을 추론할 수 있어 LiDAR 데이터가 안정될 때까지 차량이 신뢰할 수 있는 인식을 유지하도록 돕습니다. LiDAR와 단안 깊이 추정을 함께 사용하면 까다로운 주행 조건에서 더 안정적인 인식과 더 안전한 제어가 가능합니다.

그림 3. 자율 레이싱을 위한 단안 깊이 추정 사용 시각화 (출처)
Link to this section로봇 탐색 및 장애물 회피#
로봇은 종종 상세한 지도를 사용할 수 없고 상황이 끊임없이 변하는 장소에서 작동됩니다. 안전하게 이동하려면 주변에 공간이 얼마나 있는지, 장애물이 어디에 있는지에 대한 신뢰할 수 있는 감각이 필요합니다.
단안 깊이 추정은 무겁거나 비싼 하드웨어에 의존하지 않고 단일 RGB 카메라를 사용하여 이러한 공간 인식을 제공할 수 있습니다. 축척 및 원근감과 같은 시각적 단서를 학습함으로써 깊이 추정 모델은 주변 환경의 밀집된 깊이 맵을 생성할 수 있습니다. 이는 로봇에 표면과 객체까지의 거리에 대한 명확한 뷰를 제공합니다.
특히 깊이 정보가 object detection 및 시맨틱 segmentation과 같은 컴퓨터 비전 작업과 결합되면 로봇은 환경에 대한 더 완벽한 뷰를 얻을 수 있습니다. 로봇은 객체를 식별하고, 거리를 이해하며, 어디로 이동하는 것이 안전한지 결정할 수 있습니다. 이는 장애물 회피, 자유 공간 감지 및 실시간 경로 계획을 지원합니다.

그림 4. 단안 깊이 추정 및 객체 감지를 사용하여 객체 탐지 (출처)
Link to this section단안 깊이 추정의 장단점#
단안 깊이 추정 사용의 주요 장점은 다음과 같습니다.
- 경량 및 전력 효율성: 단일 카메라를 사용하면 시스템 무게와 전력 소비가 감소하며, 이는 모바일 로봇, 드론 및 임베디드 시스템에 특히 중요합니다.
- 센서 융합 친화적: 단안 깊이는 간극을 메우거나 중복성을 제공함으로써 LiDAR나 레이더와 같은 다른 센서를 보완할 수 있습니다.
- 다양한 환경에서 작동: 동일한 카메라 기반 방식을 하드웨어 변경 없이 실내, 실외 및 다양한 플랫폼에서 사용할 수 있습니다.
단안 깊이 추정은 확실한 이점을 제공하지만 고려해야 할 몇 가지 제한 사항은 다음과 같습니다.
- 능동형 센서보다 낮은 정확도: 빠르게 개선되고 있지만 단안 깊이 추정은 일반적으로 통제된 환경에서 LiDAR나 구조광 센서의 절대 정확도와 일치할 수 없습니다.
- 조명 조건에 대한 민감도: 저조도 환경, 강한 그림자, 눈부심 또는 질감이 거의 없는 장면에서는 성능이 저하될 수 있습니다.
- 일반화 문제: 한 환경에서 학습된 모델이 적응이나 미세 조정 없이는 보지 못한 도메인으로 안정적으로 전이되지 않을 수 있습니다.
Link to this section단안 깊이 추정을 신뢰해서는 안 되는 경우#
단안 깊이 추정은 흥미로운 연구 분야이지만, 실제로 어디에 사용할 수 있고 어디에 사용할 수 없는지 이해하는 것이 중요합니다. 생성되는 거리는 모델이 이미지에서 보는 것에 기반한 추정치일 뿐 실제 세계에서 취한 정확한 측정값이 아닙니다.
이로 인해 결과의 품질은 조명, 장면 복잡성, 그리고 장면이 모델이 학습된 것과 얼마나 유사한지와 같은 요인에 따라 변할 수 있습니다. 단안 깊이 추정은 보통 무엇이 더 가깝고 무엇이 더 멀리 있는지 파악하는 데 좋지만 정확한 거리가 필요할 때는 신뢰할 수 없습니다.
안전이 중요한 시스템, 산업 검사 또는 객체와 매우 정확하게 상호 작용해야 하는 로봇과 같이 정밀도가 정말로 중요한 상황에서는 깊이를 직접 측정해야 합니다. LiDAR, 레이더, 스테레오 카메라 또는 구조광 시스템과 같은 센서는 이를 위해 설계되었으며 훨씬 더 신뢰할 수 있는 거리 정보를 제공합니다.
단안 깊이 추정은 시각적으로 어려운 조건에서도 어려움을 겪을 수 있습니다. 열악한 조명, 강한 그림자, 반사되거나 투명한 표면, 안개, 연기 또는 시각적 질감이 거의 없는 장면은 모두 깊이 추정을 덜 신뢰하게 만들 수 있습니다. 장거리에서의 깊이 추정 또한 전용 센서가 일반적으로 더 잘 작동하는 또 다른 사례입니다.
실제 환경 솔루션의 경우, 단안 깊이 추정(monocular depth estimation)은 독립형 솔루션보다는 보조 도구로 사용할 때 가장 효과적입니다. 이는 유용한 공간적 맥락을 추가하고, 다른 센서가 제한될 때 공백을 메우며, 전반적인 장면 이해도를 향상하는 데 도움을 줄 수 있습니다. 하지만 정확성, 안전성, 또는 엄격한 신뢰성이 요구되는 경우에는 단안 깊이 추정을 유일한 깊이 정보 소스로 사용해서는 안 됩니다.
Link to this section핵심 요약#
단안 깊이 추정은 단 하나의 카메라 이미지로 객체와의 거리를 추정할 수 있게 하는 컴퓨터 비전 기술입니다. 원근감, 객체 크기, 질감, 명암과 같은 시각적 단서를 학습함으로써, 이러한 AI 모델은 LiDAR나 스테레오 카메라와 같은 센서에 의존하지 않고도 장면의 3D 구조를 추론할 수 있습니다. 덕분에 단안 깊이 추정은 자율 주행, 로봇 공학, 3D 장면 이해와 같은 분야에서 비용 효율적이고 확장 가능한 접근 방식이 됩니다.
Vision AI에 대해 더 자세히 알아보려면 당사의 GitHub repository를 방문하시고 커뮤니티에 참여해 주십시오. AI in robotics 및 computer vision in manufacturing에 대한 당사의 솔루션 페이지를 확인해 보시기 바랍니다. our licensing options을 확인하고 지금 바로 컴퓨터 비전을 시작해 보십시오!






