Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Ước tính độ sâu

Tìm hiểu cách ước lượng độ sâu bổ sung góc nhìn 3D cho thị giác máy tính. Khám phá các kỹ thuật như độ sâu đơn ảnh và thị giác lập thể. Ultralytics Các mẫu YOLO26.

Ước lượng độ sâu là một quá trình quan trọng trong thị giác máy tính, giúp xác định khoảng cách của các vật thể đến camera, từ đó bổ sung thêm chiều thứ ba cho hình ảnh 2D. Bằng cách tính toán khoảng cách đến từng pixel trong hình ảnh, kỹ thuật này tạo ra bản đồ độ sâu , một biểu diễn trong đó cường độ pixel tương ứng với khoảng cách. Khả năng này mô phỏng thị giác hai mắt của con người, cho phép máy móc nhận thức các mối quan hệ không gian và hình học. Đây là công nghệ nền tảng giúp các hệ thống tự động điều hướng an toàn, hiểu môi trường xung quanh và tương tác với các vật thể vật lý.

Các cơ chế và kỹ thuật cốt lõi

Có nhiều cách để ước lượng độ sâu, từ các giải pháp dựa trên phần cứng đến các phương pháp hoàn toàn dựa trên phần mềm sử dụng trí tuệ nhân tạo.

  • Hệ thống thị giác lập thể: Tương tự như mắt người, thị giác lập thể sử dụng hai camera đặt cạnh nhau. Các thuật toán phân tích sự khác biệt nhỏ, hay độ lệch, giữa hình ảnh bên trái và bên phải để xác định khoảng cách bằng phương pháp tam giác hóa. Điều này phụ thuộc rất nhiều vào việc khớp các đặc điểm chính xác để xác định cùng một điểm trong cả hai khung hình.
  • Ước lượng độ sâu đơn ảnh: Phương pháp tiên tiến này ước lượng độ sâu từ một hình ảnh duy nhất. Vì một bức ảnh 2D đơn lẻ thiếu dữ liệu độ sâu vốn có, các mô hình học sâu được huấn luyện trên các tập dữ liệu khổng lồ để nhận biết các tín hiệu thị giác như phối cảnh, kích thước đối tượng và sự che khuất. Các kiến ​​trúc hiện đại, chẳng hạn như mạng nơ-ron tích chập (CNN) , vượt trội trong nhiệm vụ này, giúp có thể suy ra cấu trúc 3D từ các camera tiêu chuẩn.
  • LiDAR và Time-of-Flight (ToF): Các cảm biến chủ động như LiDAR (Phát hiện và đo khoảng cách bằng ánh sáng)camera Time-of-Flight phát ra các xung ánh sáng và đo thời gian chúng quay trở lại. Các phương pháp này tạo ra các đám mây điểm có độ chính xác cao và thường được sử dụng để thu thập dữ liệu thực tế nhằm huấn luyện các mô hình học máy.

Các Ứng dụng Thực tế

Khả năng ước lượng khoảng cách mang tính đột phá trong nhiều ngành công nghiệp, thúc đẩy các ứng dụng đòi hỏi nhận thức không gian.

  • Lái xe tự động: Xe tự lái dựa vào ước lượng độ sâu để detect Nó giúp phát hiện chướng ngại vật, đo khoảng cách đến các phương tiện khác và điều hướng an toàn trên các mạng lưới đường phức tạp. Nó là một phần không thể thiếu trong việc phát hiện vật thể 3D để nhận diện người đi bộ và người đi xe đạp.
  • Robot và Tự động hóa: Robot sử dụng khả năng nhận biết chiều sâu cho các nhiệm vụ như lập kế hoạch đường đi và thao tác vật thể. Ví dụ, một robot trong kho cần biết chính xác khoảng cách đến kệ hàng để lấy kiện hàng mà không va chạm.
  • Thực tế tăng cường (AR): Để đặt các đối tượng ảo một cách thuyết phục vào khung cảnh thế giới thực, các thiết bị AR phải hiểu được hình học 3D của môi trường. Ước tính độ sâu đảm bảo rằng các nhân vật ảo có thể ẩn nấp sau đồ nội thất thật, một khái niệm được gọi là xử lý che khuất.

Ví dụ mã: Ước lượng độ sâu đơn ảnh

Mặc dù có những mô hình độ sâu chuyên dụng, bạn thường có thể suy luận mối quan hệ không gian bằng cách sử dụng các hộp giới hạn phát hiện đối tượng làm thước đo khoảng cách trong các trường hợp đơn giản (hộp lớn hơn thường có nghĩa là đối tượng gần hơn). Sau đây là cách tải mô hình bằng cách sử dụng... ultralytics đóng gói đến detect các đối tượng, đây là bước đầu tiên trong nhiều quy trình xử lý hình ảnh dựa trên chiều sâu.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Process results
for result in results:
    # Get bounding boxes (xyxy format)
    boxes = result.boxes.xyxy

    # Iterate through detections
    for box in boxes:
        print(f"Detected object at: {box}")

Mối liên hệ với các khái niệm khác trong thị giác máy tính

Điều quan trọng là phải phân biệt ước lượng độ sâu với các thuật ngữ liên quan. Trong khi phát hiện đối tượng xác định đối tượng đó là ở đâu trong không gian 2D (sử dụng hộp giới hạn), thì ước lượng độ sâu xác định khoảng cách của đối tượng đó (trục Z). Tương tự, phân đoạn ngữ nghĩa phân loại các pixel thành các danh mục (ví dụ: đường, bầu trời, ô tô), trong khi ước lượng độ sâu gán một giá trị khoảng cách cho cùng các pixel đó.

Những tiến bộ trong Trí tuệ nhân tạo không gian

Những tiến bộ gần đây trong trí tuệ nhân tạo tạo sinh đang thu hẹp khoảng cách giữa thị giác 2D và 3D. Các kỹ thuật như Neural Radiance Fields (NeRF) sử dụng nhiều hình ảnh 2D để tái tạo các cảnh 3D phức tạp, dựa nhiều vào các nguyên tắc chiều sâu cơ bản. Hơn nữa, khi các kỹ thuật tối ưu hóa mô hình được cải thiện, việc thực hiện ước tính chiều sâu với độ chính xác cao trên các thiết bị AI biên đang trở nên khả thi. Điều này cho phép tính toán không gian thời gian thực trên phần cứng nhỏ như máy bay không người lái hoặc kính thông minh, được hỗ trợ bởi các nền tảng như Ultralytics Platform để huấn luyện và triển khai mô hình hiệu quả.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay