Yolo 비전 선전
선전
지금 참여하기
용어집

3D 물체 감지

3D 물체 감지 살펴보기: LiDAR, 포인트 클라우드 및 딥러닝이 자율 주행 차량, 로봇 공학 및 AR을 위한 정확한 3D 바운딩 박스를 구축하는 방법.

3D 물체 감지는 정교한 컴퓨터 비전(CV) 기술로, 3차원 공간 내에서 물체를 식별하고 분류하고, 3차원 공간 내에서 물체를 찾아내는 정교한 컴퓨터 비전 기술입니다. 기존의 2D 객체 감지와는 달리 이미지 평면에 객체 주위에 평평한 직사각형 경계 상자를 그리는 기존의 2D 객체 감지와 달리, 3D 객체 감지는 방향이 지정된 3D 경계 상자(중심 좌표(x, y, z)로 정의된 직육면체)를 추정합니다, 치수(길이, 너비, 높이) 및 방향(방향 각도)으로 정의된 직육면체입니다. 이 기능을 사용하면 인공 지능(AI) 시스템이 실제 사물의 크기, 거리, 자세를 인식할 수 있어 물리적 상호작용과 내비게이션.

3D 물체 감지 작동 방식

3D 객체 감지 모델은 깊이와 부피를 인식하기 위해 공간 형상을 캡처하는 데이터 소스에 의존합니다. 2D 방식은 픽셀 강도에만 의존하는 반면, 3D 방식은 고급 센서의 데이터를 처리합니다:

  • LiDAR(빛 감지 및 거리 측정): 레이저 펄스를 방출하여 정확한 거리를 측정하고, 포인트 클라우드라고 하는 희박한 3D 표현을 생성합니다. 포인트 클라우드.
  • 스테레오 카메라: 두 개의 렌즈를 사용하여 양안 시력을 시뮬레이션하고, 시차 맵을 통해 깊이를 계산하여 를 통해 깊이를 계산하여 3D 구조를 재구성합니다.
  • 단안 카메라: 활용 딥러닝(DL)을 활용하여 단일 이미지에서 깊이를 추론하는 이미지에서 깊이를 추론하는 딥러닝(DL)을 활용합니다.

전문화된 아키텍처가 이 데이터를 처리합니다. 예를 들어 PointNet 은 원시 포인트 클라우드를 직접 처리하는 반면 복셀넷 은 3D 공간을 볼류메트릭 그리드(복셀)로 분할하여 (복셀)으로 분할하여 컨볼루션 연산을 적용합니다. 이러한 모델은 물체의 정확한 3D 좌표와 방향을 출력합니다, 기계가 물체가 무엇인지뿐만 아니라 실제 세계에서 물체가 정확히 어디에 있는지도 정확히 이해할 수 있습니다.

3D 대 2D 물체 감지

가장 큰 차이점은 공간적 차원과 제공되는 정보에 있습니다:

  • 2D 물체 감지: 이미지 공간(픽셀)에서 작동합니다. 객체의 위치를 나타내는 경계 상자(min_x, min_y, 최대_x, 최대_y)를 출력하며, 카메라 프레임에서 물체의 위치를 나타내지만 깊이나 절대 크기는 없습니다.
  • 3D 물체 감지: 세계 공간(미터/단위)에서 작동합니다. 깊이, 물리적 크기, 회전을 고려한 3D 직육면체를 출력합니다. 깊이, 물리적 치수, 회전을 고려한 3D 입방체를 출력합니다. 이를 통해 오클루전을 더 잘 처리하고 정확한 거리 측정이 가능합니다.

전체 3D 오버헤드 없이 부분적인 공간 인식이 필요한 애플리케이션에 적합합니다, 오리엔티드 바운딩 박스(OBB) 감지 기능은 중간 지점 역할을 하며, 회전된 바운딩 박스를 2D로 예측하여 항공 뷰에서 선박이나 차량과 같은 물체를 더 잘 맞출 수 있도록 합니다.

실제 애플리케이션

3D 물체 감지는 물리적 세계와 상호 작용하는 산업을 위한 인식 엔진입니다:

  • 자율주행 차량: 웨이모에서 개발한 자율 주행 차량과 같은 자율 주행 차량은 3D 감지 기능을 사용합니다. LiDAR 및 카메라 데이터를 사용하여 다른 차량과 보행자의 속도, 방향, 거리를 track 안전한 경로를 계획합니다. 궤적을 계획합니다.
  • 로봇 공학: 제조업의 산업용 로봇과 모바일 로봇은 3D 인식에 의존하여 특정 자세로 물체를 파악하거나 특정 포즈를 취한 물체를 파악하거나 충돌 없이 동적인 창고를 탐색합니다.
  • 증강 현실(AR): 디바이스는 3D 감지 기능을 사용하여 가상 객체를 실제 표면에 고정합니다, 환경의 지오메트리와 올바르게 정렬되도록 합니다.

YOLO11 통합

동안 YOLO11 은 주로 2D 검출기이지만 많은 3D 탐지 파이프라인에서 중요한 역할을 합니다. "프러스텀 기반 탐지"로 알려진 일반적인 접근 방식은 고속 2D 모델을 사용하여 이미지에서 관심 영역을 식별합니다. 그런 다음 이 2D 박스를 3D 공간으로 돌출시켜 로 돌출시켜 포인트 클라우드를 자르므로 3D 모델의 검색 공간을 크게 줄일 수 있습니다.

다음 예는 Ultralytics YOLO11 사용하여 초기 2D 감지 단계를 수행하는 방법을 보여줍니다. 3D 리프팅 모듈을 제안하는 역할을 합니다:

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

관련 개념

  • 깊이 추정: 카메라에서 이미지의 모든 픽셀의 거리를 예측합니다. 깊이 데이터를 제공하지만, 3D 감지처럼 3D 감지처럼 본질적으로 개별 물체나 그 치수를 식별하지는 않습니다.
  • 센서 퓨전: 여러 센서(예: LiDAR, 레이더, 카메라)의 데이터를 결합하여 3D 감지의 정확도와 3D 감지의 정확도와 신뢰성을 향상시키는 과정.
  • 뉴스 장면 데이터 세트: 자율주행을 위한 대규모 공개 데이터셋으로, 3D 모델 벤치마킹에 사용되는 라이다(LiDAR) 및 3D 모델 벤치마킹에 널리 사용되는 카메라 데이터.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기