Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phát hiện đối tượng 3D

Khám phá khả năng phát hiện vật thể 3D: cách LiDAR, đám mây điểm và học sâu xây dựng hộp giới hạn 3D chính xác cho xe tự hành, robot và AR.

Phát hiện vật thể 3D là một kỹ thuật thị giác máy tính (CV) tiên tiến giúp xác định, phân loại và định vị các vật thể trong môi trường ba chiều. Không giống như phát hiện vật thể 2D truyền thống, vốn vẽ một hình chữ nhật phẳng bao quanh vật thể trên mặt phẳng ảnh, phát hiện vật thể 3D ước tính một hình lập phương không gian. Thể tích này được xác định bởi bảy tham số chính: tọa độ tâm (x, y, z), kích thước vật lý (chiều dài, chiều rộng, chiều cao) và hướng (góc phương vị). Dữ liệu không gian phong phú này cho phép các hệ thống trí tuệ nhân tạo (AI) nhận biết kích thước, khoảng cách và tư thế thực của vật thể so với cảm biến, thu hẹp khoảng cách giữa nhận thức kỹ thuật số và tương tác vật lý.

Cách thức hoạt động của phát hiện vật thể 3D

Để xây dựng sự hiểu biết về không gian ba chiều của thế giới, các mô hình phát hiện 3D yêu cầu dữ liệu đầu vào chứa thông tin hình học. Trong khi nhận dạng hình ảnh tiêu chuẩn dựa trên cường độ pixel, các phương pháp 3D thường sử dụng sự kết hợp cảm biến để kết hợp dữ liệu hình ảnh với các phép đo độ sâu.

Các nguồn dữ liệu chính bao gồm:

  • LiDAR (Light Detection and Ranging - Phát hiện và đo khoảng cách bằng ánh sáng) : Các cảm biến này phát ra các xung laser để đo khoảng cách chính xác, tạo ra một biểu diễn hình học thưa thớt của khung cảnh, được gọi là đám mây điểm .
  • Camera lập thể : Bằng cách sử dụng hai thấu kính để mô phỏng thị giác hai mắt, các hệ thống này tính toán độ sâu thông qua bản đồ chênh lệch , cho phép tái tạo cấu trúc 3D từ các sai lệch hình ảnh.
  • Dự đoán độ sâu đơn ảnh : Các thuật toán học sâu (DL) tiên tiến có thể suy ra độ sâu từ một hình ảnh 2D duy nhất, một kỹ thuật thường được gọi là "pseudo-LiDAR", mặc dù nhìn chung độ chính xác thấp hơn so với các cảm biến chủ động.

Các Ứng dụng Thực tế

Khả năng nhận biết chiều sâu và thể tích biến phát hiện vật thể 3D trở thành công cụ nhận thức quan trọng cho các ngành công nghiệp tương tác với thế giới vật lý.

  • Xe tự hành : Xe tự lái dựa vào công nghệ nhận diện 3D để track Quỹ đạo, tốc độ và hướng di chuyển của các phương tiện giao thông xung quanh. Bằng cách xử lý dữ liệu từ Bộ dữ liệu mở Waymo hoặc bộ dữ liệu nuScenes , các phương tiện này có thể dự đoán các vụ va chạm tiềm tàng và lập kế hoạch các tuyến đường an toàn trong môi trường năng động.
  • Robot công nghiệp : Robot công nghiệp sử dụng nhận thức 3D để thực hiện thao tác "lấy vật từ thùng chứa". Cánh tay robot phải hiểu chính xác tư thế 3D của vật cần lấy để có thể lấy đúng cách từ một đống vật. Khả năng này được tích hợp vào các quy trình làm việc hiện đại bằng cách sử dụng các công cụ như Open3D để xử lý dữ liệu.
  • Thực tế tăng cường (AR) : Để neo các nhân vật ảo hoặc thông tin lên các bề mặt trong thế giới thực, các khung phần mềm như Google ARCore sử dụng tính năng phát hiện 3D để lập bản đồ hình học của môi trường, đảm bảo các tài sản kỹ thuật số khớp hoàn hảo với sàn nhà hoặc bàn vật lý.

Phát hiện đối tượng 3D so với 2D

Sự khác biệt giữa hai công nghệ này nằm ở quy mô sản phẩm đầu ra và các trường hợp sử dụng dự định của chúng.

  • Phát hiện đối tượng 2D : Hoạt động trong không gian màn hình (pixel). Nó cho phép suy luận thời gian thực cho các tác vụ như nhận dạng người trong khung hình video, nhưng không thể cho biết người đó cách xa bao nhiêu mét.
  • Phát hiện vật thể 3D : Hoạt động trong không gian thế giới (mét). Nó xử lý hiệu quả hiện tượng che khuất và cung cấp dữ liệu tọa độ cần thiết để robot có thể di chuyển xung quanh vật thể.

Đối với các trường hợp yêu cầu nhiều dữ liệu định hướng hơn một hình vuông đơn giản nhưng lại cần ít tài nguyên tính toán hơn so với mô hình 3D đầy đủ, phương pháp phát hiện hộp giới hạn định hướng (OBB) đóng vai trò là giải pháp trung gian hiệu quả. OBB được hỗ trợ đầy đủ bởi YOLO26 , phiên bản mới nhất. Ultralytics mô hình này cho phép phát hiện các đối tượng xoay trong ảnh chụp từ trên không hoặc các dây chuyền sản xuất phức tạp.

Tích hợp với Ultralytics YOLO

Trong khi việc phát hiện 3D đầy đủ thường yêu cầu các kiến trúc chuyên dụng như VoxelNet hoặc PointPillars , các bộ dò 2D tốc độ cao đóng vai trò quan trọng trong các quy trình 3D "dựa trên hình chóp cụt". Trong quy trình này, một mô hình như YOLO11 (hoặc YOLO26 mới hơn) phát hiện đối tượng trong ảnh 2D. Hộp 2D này sau đó được mở rộng vào không gian 3D để cô lập phần liên quan của đám mây điểm LiDAR, giảm đáng kể diện tích tìm kiếm cho mô hình 3D.

Ví dụ sau đây minh họa cách thực hiện suy luận với mô hình OBB bằng cách sử dụng... ultralytics gói phần mềm này cung cấp khả năng phát hiện đối tượng có nhận biết chuyển động xoay, thường được sử dụng như một bước chuẩn bị trước khi phân tích 3D hoàn chỉnh:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")

# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")

# Display the rotated bounding box coordinates
for result in results:
    # returns center_x, center_y, width, height, rotation
    print(result.obb.xywhr)

Các Khái Niệm Liên Quan

  • Ước lượng độ sâu : Một tác vụ dự đoán theo từng pixel tạo ra bản đồ độ sâu của một khung cảnh. Khác với phát hiện đối tượng, nó không xác định các thể hiện đối tượng riêng lẻ hoặc lớp của chúng.
  • Dữ liệu tổng hợp : Các cảnh 3D được tạo ra một cách nhân tạo, được sử dụng để huấn luyện mô hình khi dữ liệu 3D thực tế có nhãn khan hiếm hoặc việc thu thập chúng rất tốn kém.
  • PyTorch3D : Một thư viện cung cấp các thành phần hiệu quả, có thể tái sử dụng cho nghiên cứu thị giác máy tính 3D với học sâu.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay