3D 물체 감지 살펴보기: LiDAR, 포인트 클라우드 및 딥러닝이 자율 주행 차량, 로봇 공학 및 AR을 위한 정확한 3D 바운딩 박스를 구축하는 방법.
3D 객체 탐지는 3차원 환경 내에서 객체를 식별, 분류 및 위치 파악하는 고급 컴퓨터 비전(CV) 기술입니다. 이미지의 평면 상에서 항목을 둘러싸는 평평한 직사각형 경계 상자를 그리는 기존의 2D 객체 탐지와 달리, 3D 객체 탐지는 공간적 직육면체를 추정합니다. 이 부피는 일곱 가지 핵심 매개변수(중심 좌표 (x, y, z), 물리적 치수(길이, 너비, 높이), 방향(헤딩 각도))로 정의됩니다. 이 풍부한 공간 데이터는 인공지능(AI) 시스템이 센서 상대적 객체의 실제 크기, 거리, 자세를 인지할 수 있게 하여 디지털 인식과 물리적 상호작용 간의 격차를 해소합니다.
세계에 대한 체적적 이해를 구축하기 위해 3D 탐지 모델은 기하학적 정보를 포함하는 입력 데이터가 필요합니다. 표준 이미지 인식이 픽셀 강도에 의존하는 반면, 3D 방법은 종종 센서 융합을 활용하여 시각적 데이터와 깊이 측정을 결합합니다.
주요 데이터 출처는 다음과 같습니다:
깊이와 부피를 인지하는 능력은 물리적 세계와 상호작용하는 산업 분야에서 3D 객체 감지를 핵심 인식 엔진으로 만듭니다.
이 두 기술의 차이는 출력의 차원과 의도된 사용 사례에 있습니다.
단순한 정사각형 박스보다 더 많은 방향성 데이터가 필요하지만 완전한 3D보다 계산 부담이 적은 시나리오에서는 방향성 경계 상자(OBB) 탐지가 효율적인 중간 대안으로 작용합니다. OBB는 Ultralytics YOLO26에서 완벽히 지원되어 항공 이미지나 복잡한 제조 라인에서 회전된 물체 탐지가 가능합니다.
완전한 3D 탐지는 종종 VoxelNet이나 PointPillars와 같은 특수 아키텍처를 필요로 하지만, 고속 2D 탐지기는 "프러스트럼 기반" 3D 파이프라인에서 핵심적인 역할을 수행합니다. 이 워크플로우에서는 YOLO11과 같은 모델이 YOLO11 (또는 최신 YOLO26)이 2D 이미지에서 물체를 탐지합니다. 이 2D 박스는 이후 3D 공간으로 확장되어 LiDAR 포인트 클라우드의 관련 섹션을 분리함으로써 3D 모델의 검색 영역을 크게 축소합니다.
다음 예제는 OBB 모델을 사용하여 추론을 수행하는 방법을 보여줍니다.
ultralytics 패키지는 회전 인식 감지 기능을 제공하며, 이는 종종 완전한 3D 분석의 전 단계로 사용됩니다:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)
