Bảng chú giải thuật ngữ

Phát hiện đối tượng 3D

Khám phá khả năng phát hiện vật thể 3D để nắm vững nhận thức không gian trong trí tuệ nhân tạo. Tìm hiểu cách thực hiện. Ultralytics YOLO26 hỗ trợ ước tính độ sâu, hướng và hộp giới hạn 3D trong thế giới thực.

Phát hiện vật thể 3D là một nhiệm vụ thị giác máy tính phức tạp cho phép máy móc nhận dạng, định vị và xác định kích thước của các vật thể trong không gian ba chiều. Không giống như phát hiện vật thể 2D truyền thống, vốn vẽ một hình hộp phẳng xung quanh vật thể trong ảnh, phát hiện vật thể 3D ước tính một hình hộp chữ nhật (một hộp 3D) bao quanh vật thể. Điều này cung cấp thông tin độ sâu, hướng (góc phương vị) và kích thước không gian chính xác, cho phép hệ thống hiểu không chỉ vật thể đó là gì mà còn chính xác vị trí của nó so với cảm biến trong thế giới thực. Khả năng này là nền tảng cho các công nghệ cần tương tác vật lý với môi trường xung quanh.

Cách thức hoạt động của phát hiện vật thể 3D

Để nhận biết độ sâu và thể tích, các mô hình phát hiện 3D thường dựa vào dữ liệu đầu vào phong phú hơn so với dữ liệu mà camera tiêu chuẩn cung cấp. Mặc dù một số phương pháp tiên tiến có thể suy ra cấu trúc 3D từ hình ảnh đơn sắc (một ống kính), hầu hết các hệ thống mạnh mẽ đều sử dụng dữ liệu từ cảm biến LiDAR , radar hoặc camera lập thể. Các cảm biến này tạo ra đám mây điểm — tập hợp khổng lồ các điểm dữ liệu biểu thị bề mặt bên ngoài của các vật thể.

Quy trình này bao gồm một số bước quan trọng:

Thu thập dữ liệu: Các cảm biến thu thập hình dạng hình học của khung cảnh. Ví dụ, LiDAR sử dụng các xung laser để đo khoảng cách, tạo ra bản đồ 3D chính xác.
Trích xuất đặc trưng: Các mô hình học sâu, thường dựa trên Mạng nơ-ron tích chập (CNN) hoặc Transformer, xử lý dữ liệu đám mây điểm hoặc dữ liệu hình ảnh kết hợp để xác định các mẫu.
Dự đoán hộp giới hạn: Mô hình đưa ra một hộp giới hạn 3D được xác định bởi tọa độ tâm (x, y, z), kích thước (chiều dài, chiều rộng, chiều cao) và góc xoay (yaw).
Phân loại: Tương tự như phân loại hình ảnh , hệ thống sẽ gán một nhãn (ví dụ: "người đi bộ", "phương tiện") cho đối tượng được phát hiện.

Sự khác biệt giữa phát hiện 2D và 3D

Điều quan trọng là phải phân biệt giữa hai khái niệm có liên quan này.

Phát hiện vật thể 2D: Hoạt động trên ảnh phẳng (pixel). Nó cho bạn biết một vật thể nằm ở "góc trên bên trái" hoặc "góc dưới bên phải" của khung hình nhưng không thể đánh giá hiệu quả khoảng cách hoặc kích thước thực tế nếu không có các điểm tham chiếu. Nó lý tưởng cho các tác vụ như xác định lỗi sản xuất hoặc phân tích nguồn cấp dữ liệu video, nơi độ sâu không quá quan trọng.
Phát hiện vật thể 3D: Hoạt động trong không gian thể tích (voxel hoặc điểm). Nó cung cấp khoảng cách từ camera (độ sâu), kích thước vật lý và hướng của vật thể. Điều này rất cần thiết để ngăn ngừa va chạm trong môi trường động.

Các Ứng dụng Thực tế

Việc chuyển đổi từ nhận thức 2D sang 3D mở ra những ứng dụng mạnh mẽ trong các ngành công nghiệp mà an toàn và nhận thức không gian là tối quan trọng.

Lái xe tự động: Xe tự lái phụ thuộc rất nhiều vào khả năng nhận diện 3D để di chuyển an toàn. Bằng cách xử lý dữ liệu từ LiDAR và camera, xe có thể... detect Hệ thống nhận diện các phương tiện khác, người đi bộ và chướng ngại vật, tính toán khoảng cách và tốc độ chính xác của chúng. Điều này cho phép hệ thống dự đoán quỹ đạo và đưa ra quyết định phanh hoặc lái trong các tình huống suy luận thời gian thực . Các công ty như Waymo sử dụng các bộ cảm biến tiên tiến này để lập bản đồ môi trường đô thị ngay lập tức.
Robot và việc gắp hàng từ thùng chứa: Trong lĩnh vực hậu cần và kho bãi, robot cần phải gắp các vật thể có hình dạng và kích thước khác nhau từ các thùng chứa. Công nghệ nhận diện 3D cho phép cánh tay robot hiểu được hướng của kiện hàng, xác định điểm gắp tốt nhất và lập kế hoạch đường đi không va chạm để di chuyển vật phẩm. Điều này giúp tăng hiệu quả của trí tuệ nhân tạo trong hậu cần bằng cách tự động hóa các tác vụ thủ công phức tạp.

Triển khai tính năng phát hiện đối tượng với Ultralytics

Trong khi việc phát hiện 3D đầy đủ thường yêu cầu các kiến trúc đám mây điểm chuyên dụng, các bộ phát hiện 2D hiện đại như YOLO26 ngày càng được sử dụng như một thành phần trong quy trình làm việc giả 3D hoặc để ước tính độ sâu thông qua việc điều chỉnh tỷ lệ hộp giới hạn. Đối với các nhà phát triển muốn huấn luyện mô hình trên tập dữ liệu của riêng họ, Nền tảng Ultralytics cung cấp một môi trường được tối ưu hóa để chú thích và huấn luyện.

Dưới đây là một ví dụ đơn giản về cách chạy quá trình phát hiện tiêu chuẩn bằng cách sử dụng... Ultralytics Python API, thường là bước đầu tiên trong một quy trình nhận thức lớn hơn:

import cv2
from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Visualize the results
for result in results:
    # Plot predictions on the image (returns a numpy array)
    im_array = result.plot()

    # Display using OpenCV
    cv2.imshow("Detections", im_array)
    cv2.waitKey(0)  # Press any key to close
    cv2.destroyAllWindows()

Thách thức và xu hướng tương lai

Mặc dù có tính hữu ích cao, việc phát hiện vật thể 3D vẫn gặp phải những thách thức về chi phí tính toán và chi phí cảm biến. Xử lý hàng triệu điểm trong đám mây điểm đòi hỏi một lượng dữ liệu đáng kể. GPU vấn đề về năng lượng, khiến việc triển khai trên các thiết bị biên trở nên khó khăn. Tuy nhiên, những đổi mới trong lượng tử hóa mô hình và kiến trúc mạng nơ-ron hiệu quả đang giảm bớt gánh nặng này.

Hơn nữa, các kỹ thuật như kết hợp cảm biến đang cải thiện độ chính xác bằng cách kết hợp thông tin màu sắc phong phú của camera với dữ liệu độ sâu chính xác của LiDAR. Khi các công nghệ này hoàn thiện hơn, chúng ta có thể kỳ vọng sẽ thấy khả năng nhận thức 3D được tích hợp vào nhiều thiết bị dễ tiếp cận hơn, từ kính thực tế ảo tăng cường đến các thiết bị gia dụng thông minh.

Phát hiện đối tượng 3D

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Cách thức hoạt động của phát hiện vật thể 3D

Sự khác biệt giữa phát hiện 2D và 3D

Các Ứng dụng Thực tế

Triển khai tính năng phát hiện đối tượng với Ultralytics

Thách thức và xu hướng tương lai

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng