Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phát hiện đối tượng 3D

Khám phá khả năng phát hiện vật thể 3D: cách LiDAR, đám mây điểm và học sâu xây dựng hộp giới hạn 3D chính xác cho xe tự hành, robot và AR.

Phát hiện vật thể 3D là một kỹ thuật thị giác máy tính (CV) tinh vi, giúp nhận dạng, phân loại và định vị các vật thể trong không gian ba chiều. Không giống như phát hiện vật thể 2D truyền thống, vốn vẽ một khung giới hạn hình chữ nhật phẳng xung quanh vật thể trên mặt phẳng ảnh, phát hiện vật thể 3D ước tính một khung giới hạn 3D định hướng—một hình hộp chữ nhật được xác định bởi tọa độ tâm (x, y, z), kích thước (chiều dài, chiều rộng, chiều cao) và hướng (góc hướng). Khả năng này cho phép các hệ thống trí tuệ nhân tạo (AI) nhận biết kích thước, khoảng cách và tư thế thực tế của vật thể, điều này rất cần thiết cho tương tác vật lý và điều hướng.

Cách thức hoạt động của phát hiện vật thể 3D

Để nhận biết độ sâu và thể tích, các mô hình phát hiện vật thể 3D dựa vào các nguồn dữ liệu thu thập hình học không gian. Trong khi các phương pháp 2D chỉ dựa vào cường độ điểm ảnh, các phương pháp 3D xử lý dữ liệu từ các cảm biến tiên tiến:

  • LiDAR (Phát hiện và đo khoảng cách bằng ánh sáng) : Phát ra các xung laser để đo khoảng cách chính xác, tạo ra biểu diễn 3D thưa thớt được gọi là đám mây điểm .
  • Máy ảnh nổi : Sử dụng hai ống kính để mô phỏng thị giác hai mắt, tính toán độ sâu thông qua bản đồ chênh lệch để tái tạo cấu trúc 3D.
  • Máy ảnh đơn sắc : Sử dụng công nghệ học sâu (DL) để suy ra độ sâu từ các hình ảnh đơn lẻ, thường được gọi là kỹ thuật "giả LiDAR".

Các kiến trúc chuyên biệt xử lý dữ liệu này. Ví dụ, PointNet xử lý trực tiếp các đám mây điểm thô, trong khi VoxelNet chia không gian 3D thành các lưới thể tích (voxel) để áp dụng các phép toán tích chập. Các mô hình này xuất ra tọa độ 3D và hướng chính xác của các vật thể, cho phép máy móc không chỉ hiểu được vật thể là mà còn biết chính xác vị trí của nó trong thế giới vật lý.

Phát hiện đối tượng 3D so với 2D

Sự khác biệt chính nằm ở tính đa chiều không gian và thông tin được cung cấp:

  • Phát hiện đối tượng 2D : Hoạt động trong không gian ảnh (pixel). Nó xuất ra một khung giới hạn (min_x, min_y, max_x, max_y) cho biết vị trí của đối tượng trong khung hình camera nhưng không có chiều sâu hoặc kích thước tuyệt đối.
  • Phát hiện Đối tượng 3D : Hoạt động trong không gian thực (mét/đơn vị). Nó xuất ra một hình hộp 3D có tính đến độ sâu, kích thước vật lý và góc quay. Điều này xử lý hiện tượng che khuất tốt hơn và cho phép đo khoảng cách chính xác.

Đối với các ứng dụng yêu cầu nhận thức không gian một phần mà không cần toàn bộ chi phí 3D, tính năng phát hiện Hộp giới hạn định hướng (OBB) đóng vai trò trung gian, dự đoán các hộp giới hạn xoay trong 2D để phù hợp hơn với các vật thể như tàu hoặc phương tiện trong chế độ xem trên không.

Các Ứng dụng Thực tế

Phát hiện vật thể 3D là công cụ nhận thức cho các ngành công nghiệp tương tác với thế giới vật lý:

  • Xe tự hành : Xe tự lái, chẳng hạn như xe do Waymo phát triển, sử dụng công nghệ phát hiện 3D trên dữ liệu LiDAR và camera để track tốc độ, hướng đi và khoảng cách của các phương tiện khác và người đi bộ để lập kế hoạch di chuyển an toàn.
  • Robot : Cánh tay công nghiệp và robot di động trong sản xuất dựa vào nhận thức 3D để nắm bắt các vật thể có tư thế cụ thể hoặc di chuyển qua các nhà kho động mà không bị va chạm.
  • Thực tế tăng cường (AR) : Các thiết bị sử dụng công nghệ phát hiện 3D để neo các vật thể ảo vào bề mặt thế giới thực, đảm bảo chúng căn chỉnh chính xác với hình dạng của môi trường.

Tích hợp với YOLO11

Mặc dù YOLO11 chủ yếu là một bộ phát hiện 2D, nó đóng vai trò quan trọng trong nhiều quy trình phát hiện 3D. Một phương pháp phổ biến, được gọi là "phát hiện dựa trên hình chóp cụt", sử dụng mô hình 2D tốc độ cao để xác định vùng quan tâm trong ảnh. Hộp 2D này sau đó được đùn vào không gian 3D để cắt đám mây điểm, giúp giảm đáng kể không gian tìm kiếm cho mô hình 3D.

Ví dụ sau đây minh họa cách thực hiện bước phát hiện 2D ban đầu bằng cách sử dụng Ultralytics YOLO11 , sẽ đóng vai trò là đề xuất cho mô-đun nâng 3D:

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

Các Khái Niệm Liên Quan

  • Ước tính độ sâu : Dự đoán khoảng cách của từng pixel trong ảnh từ camera. Mặc dù cung cấp dữ liệu độ sâu, nhưng nó không tự động xác định từng vật thể hoặc kích thước của chúng như phát hiện 3D.
  • Hợp nhất cảm biến : Quá trình kết hợp dữ liệu từ nhiều cảm biến (ví dụ: LiDAR, radar và camera) để cải thiện độ chính xác và độ tin cậy của phát hiện 3D.
  • Bộ dữ liệu NuScenes : Một bộ dữ liệu công khai quy mô lớn dành cho xe tự hành, cung cấp chú thích hộp giới hạn 3D cho dữ liệu LiDAR và camera, được sử dụng rộng rãi để đánh giá chuẩn các mô hình 3D.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay