Yolo 비전 선전
선전
지금 참여하기
용어집

3D 물체 감지

3D 객체 탐지를 통해 AI의 공간 인식을 마스터하세요. Ultralytics 실제 환경에서 깊이, 방향 및 3D 경계 상자 추정을 어떻게 구현하는지 알아보세요.

3D 객체 탐지는 기계가 3차원 공간 내에서 객체를 식별하고, 위치를 파악하며, 크기를 결정할 수 있도록 하는 정교한 컴퓨터 비전 작업입니다. 이미지의 항목 주위에 평평한 경계 상자를 그리는 기존의 2D 객체 탐지와 달리, 3D 객체 탐지는 객체를 둘러싸는 직육면체(3D 상자)를 추정합니다. 이를 통해 중요한 깊이 정보, 방향(헤딩), 정확한 공간적 치수를 제공하여 시스템이 객체가 무엇인지뿐만 아니라 실제 세계에서 센서에 대한 정확한 상대적 위치를 이해할 수 있게 합니다. 이 기능은 환경과 물리적으로 상호작용해야 하는 기술에 근본적으로 중요합니다.

3D 물체 감지 작동 방식

깊이와 부피를 인지하기 위해 3D 탐지 모델은 일반적으로 표준 카메라가 제공하는 것보다 풍부한 데이터 입력을 필요로 합니다. 일부 고급 기법은 단안(단일 렌즈) 이미지에서 3D 구조를 추론할 수 있지만, 대부분의 견고한 시스템은 라이더 센서, 레이더 또는 스테레오 카메라의 데이터를 활용합니다. 이러한 센서들은 물체의 외부 표면을 나타내는 방대한 데이터 포인트 집합인 점 구름을생성합니다.

이 과정은 몇 가지 핵심 단계를 포함합니다:

  • 데이터 수집: 센서가 장면의 기하학적 구조를 포착합니다. 예를 들어, 라이다(LiDAR)는 레이저 펄스를 이용해 거리를 측정하여 정밀한 3D 지도를 생성합니다.
  • 특징 추출: 딥러닝 모델은 주로 컨볼루션 신경망(CNN) 또는 트랜스포머를 기반으로 하여 포인트 클라우드 또는 융합 이미지 데이터를 처리하여 패턴을 식별합니다.
  • 바운딩 박스 예측: 모델은 중심 좌표 (x, y, z), 크기 (길이, 너비, 높이), 회전 각도(요)로 정의된 3차원 바운딩 박스를 출력합니다.
  • 분류: 이미지 분류와 유사하게, 시스템은 탐지된 객체에 라벨(예: "보행자", "차량")을 할당합니다.

2D 감지와 3D 감지의 차이점

이 두 가지 관련 개념을 구분하는 것이 중요하다.

  • 2D 객체 탐지: 평면 이미지(픽셀)에서 작동합니다. 프레임의 "좌상단" 또는 "우하단"에 객체가 존재함을 알려주지만, 기준점이 없으면 거리나 실제 크기를 효과적으로 판단할 수 없습니다. 제조 결함 식별이나 깊이가 덜 중요한 영상 분석과 같은 작업에 이상적입니다.
  • 3D 객체 감지: 체적 공간(복셀 또는 점)에서 작동합니다. 카메라로부터의 거리(깊이), 객체의 물리적 크기 및 방향을 제공합니다. 이는 동적 환경에서 충돌을 방지하는 데 필수적입니다.

실제 애플리케이션

2D에서 3D 인식으로의 전환은 안전과 공간 인식이 최우선인 산업 분야에서 강력한 활용 사례를 가능케 합니다.

  • 자율주행: 자율주행차는 안전한 주행을 위해 3D 감지 기술에 크게 의존합니다. 라이더(LiDAR)와 카메라에서 수집된 데이터를 처리함으로써 차량은 detect 차량, 보행자, 장애물을 detect 그들의 정확한 거리와 속도를 detect . 이를 통해 인식 시스템은 궤적을 예측하고 실시간 추론 시나리오에서 제동 또는 조향 결정을 내릴 수 있습니다. 웨이모(Waymo )와 같은 기업들은 이러한 중량급 센서 모듈을 활용해 도시 환경을 순식간에 매핑합니다.
  • 로봇공학과 빈 피킹: 물류 및 창고 관리 분야에서 로봇은 다양한 형태와 크기의 물체를 빈에서 집어올려야 합니다. 3D 감지 기술은 로봇 팔이 물품의 방향을 파악하고 최적의 집기 지점을 결정하며 충돌 없는 이동 경로를 계획할 수 있게 합니다. 이는 복잡한 수동 작업을 자동화함으로써 물류 분야의 AI 효율성을 향상시킵니다.

Ultralytics 활용한 객체 탐지 구현

완전한 3D 탐지는 종종 특수한 포인트 클라우드 아키텍처가 필요하지만, YOLO26과 같은 현대적인 2D 탐지기는 의사 3D 워크플로의 구성 요소로 또는 바운딩 박스 스케일링을 통한 깊이 추정에 점점 더 많이 사용됩니다. 자체 데이터셋으로 모델을 훈련하려는 개발자를 위해 Ultralytics 주석 작업 및 훈련을 위한 간소화된 환경을 제공합니다.

Ultralytics Python 사용하여 표준 감지를 실행하는 간단한 예시입니다. 이는 대규모 인식 파이프라인의 첫 번째 단계로 자주 사용됩니다:

import cv2
from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Visualize the results
for result in results:
    # Plot predictions on the image (returns a numpy array)
    im_array = result.plot()

    # Display using OpenCV
    cv2.imshow("Detections", im_array)
    cv2.waitKey(0)  # Press any key to close
    cv2.destroyAllWindows()

도전 과제와 미래 트렌드

3D 객체 탐지는 유용함에도 불구하고 계산 비용과 센서 비용 측면에서 어려움을 겪고 있습니다. 점 클라우드를 구성하는 수백만 개의 점을 처리하려면 상당한 GPU 필요하여 엣지 디바이스에 배포하기 어렵습니다. 그러나 모델 양자화 및 효율적인 신경망 아키텍처 분야의 혁신으로 이러한 부담이 줄어들고 있습니다.

또한 센서 융합과 같은 기술은 카메라의 풍부한 색상 정보와 LiDAR의 정밀한 깊이 데이터를 결합하여 정확도를 향상시키고 있습니다. 이러한 기술이 성숙해짐에 따라, 증강 현실 안경부터 스마트 가전제품에 이르기까지 더 많은 접근 가능한 기기에 3D 인식 기능이 통합될 것으로 기대할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기