Khám phá khả năng phát hiện vật thể 3D: cách LiDAR, đám mây điểm và học sâu xây dựng hộp giới hạn 3D chính xác cho xe tự hành, robot và AR.
Phát hiện vật thể 3D là một kỹ thuật thị giác máy tính (CV) tiên tiến giúp xác định, phân loại và định vị các vật thể trong môi trường ba chiều. Không giống như phát hiện vật thể 2D truyền thống, vốn vẽ một hình chữ nhật phẳng bao quanh vật thể trên mặt phẳng ảnh, phát hiện vật thể 3D ước tính một hình lập phương không gian. Thể tích này được xác định bởi bảy tham số chính: tọa độ tâm (x, y, z), kích thước vật lý (chiều dài, chiều rộng, chiều cao) và hướng (góc phương vị). Dữ liệu không gian phong phú này cho phép các hệ thống trí tuệ nhân tạo (AI) nhận biết kích thước, khoảng cách và tư thế thực của vật thể so với cảm biến, thu hẹp khoảng cách giữa nhận thức kỹ thuật số và tương tác vật lý.
Để xây dựng sự hiểu biết về không gian ba chiều của thế giới, các mô hình phát hiện 3D yêu cầu dữ liệu đầu vào chứa thông tin hình học. Trong khi nhận dạng hình ảnh tiêu chuẩn dựa trên cường độ pixel, các phương pháp 3D thường sử dụng sự kết hợp cảm biến để kết hợp dữ liệu hình ảnh với các phép đo độ sâu.
Các nguồn dữ liệu chính bao gồm:
Khả năng nhận biết chiều sâu và thể tích biến phát hiện vật thể 3D trở thành công cụ nhận thức quan trọng cho các ngành công nghiệp tương tác với thế giới vật lý.
Sự khác biệt giữa hai công nghệ này nằm ở quy mô sản phẩm đầu ra và các trường hợp sử dụng dự định của chúng.
Đối với các trường hợp yêu cầu nhiều dữ liệu định hướng hơn một hình vuông đơn giản nhưng lại cần ít tài nguyên tính toán hơn so với mô hình 3D đầy đủ, phương pháp phát hiện hộp giới hạn định hướng (OBB) đóng vai trò là giải pháp trung gian hiệu quả. OBB được hỗ trợ đầy đủ bởi YOLO26 , phiên bản mới nhất. Ultralytics mô hình này cho phép phát hiện các đối tượng xoay trong ảnh chụp từ trên không hoặc các dây chuyền sản xuất phức tạp.
Trong khi việc phát hiện 3D đầy đủ thường yêu cầu các kiến trúc chuyên dụng như VoxelNet hoặc PointPillars , các bộ dò 2D tốc độ cao đóng vai trò quan trọng trong các quy trình 3D "dựa trên hình chóp cụt". Trong quy trình này, một mô hình như YOLO11 (hoặc YOLO26 mới hơn) phát hiện đối tượng trong ảnh 2D. Hộp 2D này sau đó được mở rộng vào không gian 3D để cô lập phần liên quan của đám mây điểm LiDAR, giảm đáng kể diện tích tìm kiếm cho mô hình 3D.
Ví dụ sau đây minh họa cách thực hiện suy luận với mô hình OBB bằng cách sử dụng...
ultralytics gói phần mềm này cung cấp khả năng phát hiện đối tượng có nhận biết chuyển động xoay, thường được sử dụng như một bước chuẩn bị trước khi phân tích 3D hoàn chỉnh:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)