Khám phá khả năng phát hiện vật thể 3D để nắm vững nhận thức không gian trong trí tuệ nhân tạo. Tìm hiểu cách thực hiện. Ultralytics YOLO26 hỗ trợ ước tính độ sâu, hướng và hộp giới hạn 3D trong thế giới thực.
Phát hiện vật thể 3D là một nhiệm vụ thị giác máy tính phức tạp cho phép máy móc nhận dạng, định vị và xác định kích thước của các vật thể trong không gian ba chiều. Không giống như phát hiện vật thể 2D truyền thống, vốn vẽ một hình hộp phẳng xung quanh vật thể trong ảnh, phát hiện vật thể 3D ước tính một hình hộp chữ nhật (một hộp 3D) bao quanh vật thể. Điều này cung cấp thông tin độ sâu, hướng (góc phương vị) và kích thước không gian chính xác, cho phép hệ thống hiểu không chỉ vật thể đó là gì mà còn chính xác vị trí của nó so với cảm biến trong thế giới thực. Khả năng này là nền tảng cho các công nghệ cần tương tác vật lý với môi trường xung quanh.
Để nhận biết độ sâu và thể tích, các mô hình phát hiện 3D thường dựa vào dữ liệu đầu vào phong phú hơn so với dữ liệu mà camera tiêu chuẩn cung cấp. Mặc dù một số phương pháp tiên tiến có thể suy ra cấu trúc 3D từ hình ảnh đơn sắc (một ống kính), hầu hết các hệ thống mạnh mẽ đều sử dụng dữ liệu từ cảm biến LiDAR , radar hoặc camera lập thể. Các cảm biến này tạo ra đám mây điểm — tập hợp khổng lồ các điểm dữ liệu biểu thị bề mặt bên ngoài của các vật thể.
Quy trình này bao gồm một số bước quan trọng:
Điều quan trọng là phải phân biệt giữa hai khái niệm có liên quan này.
Việc chuyển đổi từ nhận thức 2D sang 3D mở ra những ứng dụng mạnh mẽ trong các ngành công nghiệp mà an toàn và nhận thức không gian là tối quan trọng.
Trong khi việc phát hiện 3D đầy đủ thường yêu cầu các kiến trúc đám mây điểm chuyên dụng, các bộ phát hiện 2D hiện đại như YOLO26 ngày càng được sử dụng như một thành phần trong quy trình làm việc giả 3D hoặc để ước tính độ sâu thông qua việc điều chỉnh tỷ lệ hộp giới hạn. Đối với các nhà phát triển muốn huấn luyện mô hình trên tập dữ liệu của riêng họ, Nền tảng Ultralytics cung cấp một môi trường được tối ưu hóa để chú thích và huấn luyện.
Dưới đây là một ví dụ đơn giản về cách chạy quá trình phát hiện tiêu chuẩn bằng cách sử dụng... Ultralytics Python API, thường là bước đầu tiên trong một quy trình nhận thức lớn hơn:
import cv2
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Perform inference on a local image
results = model("path/to/image.jpg")
# Visualize the results
for result in results:
# Plot predictions on the image (returns a numpy array)
im_array = result.plot()
# Display using OpenCV
cv2.imshow("Detections", im_array)
cv2.waitKey(0) # Press any key to close
cv2.destroyAllWindows()
Mặc dù có tính hữu ích cao, việc phát hiện vật thể 3D vẫn gặp phải những thách thức về chi phí tính toán và chi phí cảm biến. Xử lý hàng triệu điểm trong đám mây điểm đòi hỏi một lượng dữ liệu đáng kể. GPU vấn đề về năng lượng, khiến việc triển khai trên các thiết bị biên trở nên khó khăn. Tuy nhiên, những đổi mới trong lượng tử hóa mô hình và kiến trúc mạng nơ-ron hiệu quả đang giảm bớt gánh nặng này.
Hơn nữa, các kỹ thuật như kết hợp cảm biến đang cải thiện độ chính xác bằng cách kết hợp thông tin màu sắc phong phú của camera với dữ liệu độ sâu chính xác của LiDAR. Khi các công nghệ này hoàn thiện hơn, chúng ta có thể kỳ vọng sẽ thấy khả năng nhận thức 3D được tích hợp vào nhiều thiết bị dễ tiếp cận hơn, từ kính thực tế ảo tăng cường đến các thiết bị gia dụng thông minh.