Yolo 비전 선전
선전
지금 참여하기
용어집

3D 물체 감지

3D 물체 감지 살펴보기: LiDAR, 포인트 클라우드 및 딥러닝이 자율 주행 차량, 로봇 공학 및 AR을 위한 정확한 3D 바운딩 박스를 구축하는 방법.

3D 객체 탐지는 3차원 환경 내에서 객체를 식별, 분류 및 위치 파악하는 고급 컴퓨터 비전(CV) 기술입니다. 이미지의 평면 상에서 항목을 둘러싸는 평평한 직사각형 경계 상자를 그리는 기존의 2D 객체 탐지와 달리, 3D 객체 탐지는 공간적 직육면체를 추정합니다. 이 부피는 일곱 가지 핵심 매개변수(중심 좌표 (x, y, z), 물리적 치수(길이, 너비, 높이), 방향(헤딩 각도))로 정의됩니다. 이 풍부한 공간 데이터는 인공지능(AI) 시스템이 센서 상대적 객체의 실제 크기, 거리, 자세를 인지할 수 있게 하여 디지털 인식과 물리적 상호작용 간의 격차를 해소합니다.

3D 물체 감지 작동 방식

세계에 대한 체적적 이해를 구축하기 위해 3D 탐지 모델은 기하학적 정보를 포함하는 입력 데이터가 필요합니다. 표준 이미지 인식이 픽셀 강도에 의존하는 반면, 3D 방법은 종종 센서 융합을 활용하여 시각적 데이터와 깊이 측정을 결합합니다.

주요 데이터 출처는 다음과 같습니다:

  • LiDAR (광검출 및 거리측정): 이 센서는 레이저 펄스를 방출하여 정밀한 거리를 측정하며, 이를 통해 장면의 드문드문한 기하학적 표현인 점 구름(point cloud)을 생성합니다.
  • 스테레오 카메라: 두 개의 렌즈를 사용하여 양안 시력을 모방함으로써, 이 시스템은 시차 맵을 통해 깊이를 계산하여 시각적 오프셋으로부터 3차원 구조를 재구성할 수 있게 합니다.
  • 단안 깊이 예측: 고급 딥 러닝(DL) 알고리즘은 단일 2D 이미지로부터 깊이를 추론할 수 있으며, 이는 흔히 "가상 LiDAR" 기술로 불리지만, 일반적으로 능동형 센서보다 낮은 정밀도를 제공합니다.

실제 애플리케이션

깊이와 부피를 인지하는 능력은 물리적 세계와 상호작용하는 산업 분야에서 3D 객체 감지를 핵심 인식 엔진으로 만듭니다.

  • 자율주행차: 자율주행차는 주변 교통의 track , 속도, 진행 track 위해 3D 감지 기술을 활용합니다. Waymo 공개 데이터셋 또는 nuScenes 데이터셋의 데이터를 처리함으로써 이러한 차량은 잠재적 충돌을 예측하고 동적 환경 속 안전한 경로를 계획할 수 있습니다.
  • 로봇공학: 산업용 로봇은 3D 인지 기술을 활용해 "빈 피킹(bin picking)" 작업을 수행합니다. 로봇 팔은 부품의 정확한 3D 위치를 파악해야 더미에서 올바르게 집을 수 있습니다. 이 기능은 Open3D 같은 데이터 처리 도구를 통해 현대적 작업 흐름에 통합됩니다.
  • 증강 현실(AR): 가상 캐릭터나 정보를 실제 표면에 고정시키기 위해, Google 같은 프레임워크는 3D 감지 기술을 활용해 환경의 기하학적 구조를 매핑함으로써 디지털 자산이 실제 바닥이나 테이블과 완벽하게 정렬되도록 합니다.

3D 대 2D 물체 감지

이 두 기술의 차이는 출력의 차원과 의도된 사용 사례에 있습니다.

  • 2D 객체 탐지: 화면 공간(픽셀)에서 작동합니다. 동영상 프레임 내 인물 식별과 같은 작업에 대한 실시간 추론을 가능하게 하지만, 해당 인물이 몇 미터 떨어져 있는지 알려주지는 못합니다.
  • 3D 객체 탐지: 세계 좌표계(미터)에서 작동합니다. 가림 현상을 효과적으로 처리하며 로봇이 물리적으로 객체 주변을 이동하는 데 필요한 좌표 데이터를 제공합니다.

단순한 정사각형 박스보다 더 많은 방향성 데이터가 필요하지만 완전한 3D보다 계산 부담이 적은 시나리오에서는 방향성 경계 상자(OBB) 탐지가 효율적인 중간 대안으로 작용합니다. OBB는 Ultralytics YOLO26에서 완벽히 지원되어 항공 이미지나 복잡한 제조 라인에서 회전된 물체 탐지가 가능합니다.

Ultralytics YOLO 통합

완전한 3D 탐지는 종종 VoxelNet이나 PointPillars와 같은 특수 아키텍처를 필요로 하지만, 고속 2D 탐지기는 "프러스트럼 기반" 3D 파이프라인에서 핵심적인 역할을 수행합니다. 이 워크플로우에서는 YOLO11과 같은 모델이 YOLO11 (또는 최신 YOLO26)이 2D 이미지에서 물체를 탐지합니다. 이 2D 박스는 이후 3D 공간으로 확장되어 LiDAR 포인트 클라우드의 관련 섹션을 분리함으로써 3D 모델의 검색 영역을 크게 축소합니다.

다음 예제는 OBB 모델을 사용하여 추론을 수행하는 방법을 보여줍니다. ultralytics 패키지는 회전 인식 감지 기능을 제공하며, 이는 종종 완전한 3D 분석의 전 단계로 사용됩니다:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")

# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")

# Display the rotated bounding box coordinates
for result in results:
    # returns center_x, center_y, width, height, rotation
    print(result.obb.xywhr)

관련 개념

  • 깊이 추정: 장면의 깊이 맵을 생성하는 픽셀 단위 예측 작업입니다. 객체 탐지와 달리 개별 객체 인스턴스나 그 클래스를 식별하지 않습니다.
  • 합성 데이터: 실제 세계의 라벨링된 3D 데이터가 부족하거나 수집 비용이 높을 때 모델 훈련에 사용되는 인공적으로 생성된 3D 장면.
  • PyTorch3D: 딥러닝을 활용한 3D 컴퓨터 비전 연구를 위한 효율적이고 재사용 가능한 구성 요소를 제공하는 라이브러리입니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기