Tìm hiểu cách ước lượng độ sâu bổ sung góc nhìn 3D cho thị giác máy tính. Khám phá các kỹ thuật như độ sâu đơn ảnh và thị giác lập thể. Ultralytics Các mẫu YOLO26.
Ước lượng độ sâu là một quá trình quan trọng trong thị giác máy tính, giúp xác định khoảng cách của các vật thể đến camera, từ đó bổ sung thêm chiều thứ ba cho hình ảnh 2D. Bằng cách tính toán khoảng cách đến từng pixel trong hình ảnh, kỹ thuật này tạo ra bản đồ độ sâu , một biểu diễn trong đó cường độ pixel tương ứng với khoảng cách. Khả năng này mô phỏng thị giác hai mắt của con người, cho phép máy móc nhận thức các mối quan hệ không gian và hình học. Đây là công nghệ nền tảng giúp các hệ thống tự động điều hướng an toàn, hiểu môi trường xung quanh và tương tác với các vật thể vật lý.
Có nhiều cách để ước lượng độ sâu, từ các giải pháp dựa trên phần cứng đến các phương pháp hoàn toàn dựa trên phần mềm sử dụng trí tuệ nhân tạo.
Khả năng ước lượng khoảng cách mang tính đột phá trong nhiều ngành công nghiệp, thúc đẩy các ứng dụng đòi hỏi nhận thức không gian.
Mặc dù có những mô hình độ sâu chuyên dụng, bạn thường có thể suy luận mối quan hệ không gian bằng cách sử dụng các hộp giới hạn phát hiện đối tượng làm thước đo khoảng cách trong các trường hợp đơn giản (hộp lớn hơn thường có nghĩa là đối tượng gần hơn). Sau đây là cách tải mô hình bằng cách sử dụng... ultralytics đóng gói đến detect các đối tượng, đây là bước đầu tiên trong nhiều quy trình xử lý hình ảnh dựa trên chiều sâu.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Process results
for result in results:
# Get bounding boxes (xyxy format)
boxes = result.boxes.xyxy
# Iterate through detections
for box in boxes:
print(f"Detected object at: {box}")
Điều quan trọng là phải phân biệt ước lượng độ sâu với các thuật ngữ liên quan. Trong khi phát hiện đối tượng xác định đối tượng đó là gì và ở đâu trong không gian 2D (sử dụng hộp giới hạn), thì ước lượng độ sâu xác định khoảng cách của đối tượng đó (trục Z). Tương tự, phân đoạn ngữ nghĩa phân loại các pixel thành các danh mục (ví dụ: đường, bầu trời, ô tô), trong khi ước lượng độ sâu gán một giá trị khoảng cách cho cùng các pixel đó.
Những tiến bộ gần đây trong trí tuệ nhân tạo tạo sinh đang thu hẹp khoảng cách giữa thị giác 2D và 3D. Các kỹ thuật như Neural Radiance Fields (NeRF) sử dụng nhiều hình ảnh 2D để tái tạo các cảnh 3D phức tạp, dựa nhiều vào các nguyên tắc chiều sâu cơ bản. Hơn nữa, khi các kỹ thuật tối ưu hóa mô hình được cải thiện, việc thực hiện ước tính chiều sâu với độ chính xác cao trên các thiết bị AI biên đang trở nên khả thi. Điều này cho phép tính toán không gian thời gian thực trên phần cứng nhỏ như máy bay không người lái hoặc kính thông minh, được hỗ trợ bởi các nền tảng như Ultralytics Platform để huấn luyện và triển khai mô hình hiệu quả.