Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Ước tính độ sâu

Khám phá cách ước tính độ sâu tạo ra bản đồ độ sâu từ hình ảnh—âm thanh nổi, ToF, LiDAR và học sâu đơn sắc—để hỗ trợ robot, AR/VR và nhận thức 3D.

Ước lượng độ sâu là một nhiệm vụ cốt lõi trong thị giác máy tính , bao gồm việc tính toán khoảng cách của các vật thể khác nhau trong một cảnh từ góc nhìn của camera. Không giống như hình ảnh 2D thông thường chỉ chụp chiều cao và chiều rộng, ước lượng độ sâu bổ sung thêm chiều thứ ba, cho phép hệ thống nhận thức thế giới ở dạng 3D. Quá trình này tạo ra một bản đồ độ sâu, về cơ bản là một hình ảnh trong đó giá trị của mỗi pixel tương ứng với khoảng cách của nó đến camera. Khả năng này là nền tảng cho phép máy móc hiểu được các mối quan hệ không gian và tương tác với môi trường của chúng một cách có ý nghĩa hơn, tương tự như thị giác của con người.

Cách thức hoạt động của ước tính độ sâu

Có một số kỹ thuật để ước tính độ sâu, từ các phương pháp truyền thống sử dụng phần cứng chuyên dụng đến các phương pháp hiện đại được thúc đẩy bởi học sâu .

  • Tầm nhìn lập thể: Phương pháp này mô phỏng thị giác hai mắt của con người bằng cách sử dụng hai camera đặt cách nhau một khoảng ngắn. Bằng cách phân tích những khác biệt nhỏ (độ chênh lệch) giữa hai hình ảnh, có thể xác định khoảng cách đến các điểm trong khung cảnh. Đây là một phương pháp cổ điển và đáng tin cậy để thu thập thông tin độ sâu.
  • Camera Thời gian bay (ToF): Các cảm biến chuyên dụng này phát ra tín hiệu ánh sáng (thường là hồng ngoại) và đo thời gian ánh sáng phản xạ từ vật thể và quay trở lại cảm biến. Camera ToF có thể tạo bản đồ độ sâu cực kỳ chính xác theo thời gian thực.
  • LiDAR (Phát hiện và Đo khoảng cách bằng Ánh sáng): Thường được sử dụng trong xe tự hành , LiDAR hoạt động bằng cách phát ra các xung laser và đo thời gian phản hồi của chúng để tạo ra đám mây điểm 3D chi tiết về môi trường xung quanh. Công nghệ LiDAR cung cấp dữ liệu độ sâu chính xác , vô cùng hữu ích cho việc định vị an toàn.
  • Ước tính độ sâu đơn sắc: Một tiến bộ đáng kể trong AI liên quan đến việc ước tính độ sâu từ một hình ảnh 2D duy nhất. Các mô hình học sâu , đặc biệt là mạng nơ-ron tích chập (CNN) , được đào tạo trên các tập dữ liệu khổng lồ để suy ra tín hiệu độ sâu từ kết cấu, đổ bóng và kích thước vật thể, tương tự như não bộ con người.

Ứng dụng của ước tính độ sâu

Khả năng nhận biết chiều sâu rất quan trọng đối với nhiều ứng dụng đòi hỏi nhận thức về không gian.

Trong robot học , ước tính độ sâu rất quan trọng cho việc điều hướng và thao tác. Một robot công nghiệp trên dây chuyền lắp ráp sử dụng dữ liệu độ sâu để nắm bắt và di chuyển vật thể một cách chính xác, cải thiện hiệu quả trong tự động hóa sản xuất . Tương tự, một robot di động sử dụng bản đồ độ sâu để tránh chướng ngại vật và lập kế hoạch đường đi trong môi trường động như nhà kho. Nhận thức 3D này cho phép tương tác chính xác và an toàn với thế giới vật lý.

Thực tế tăng cường (AR) và Thực tế ảo (VR) phụ thuộc rất nhiều vào ước tính độ sâu để tạo ra trải nghiệm nhập vai. Để một ứng dụng AR trên điện thoại thông minh có thể đặt một món đồ nội thất ảo vào một căn phòng thực, trước tiên nó phải hiểu được hình dạng của căn phòng. Bằng cách tạo ra một bản đồ độ sâu chi tiết, hệ thống có thể đảm bảo vật thể ảo che khuất và tương tác chân thực với các vật thể trong thế giới thực, giúp ảo ảnh trở nên liền mạch và chân thực.

Ước tính độ sâu so với các khái niệm liên quan

Điều quan trọng là phải phân biệt ước tính độ sâu với các thuật ngữ có âm thanh tương tự trong thị giác máy tính.

  • Tính toán khoảng cách: Mặc dù có liên quan, tính toán khoảng cách trong thị giác máy tính thường đề cập đến việc đo khoảng cách giữa hai vật thể trong một mặt phẳng ảnh 2D (tức là tính bằng pixel). Ngược lại, ước lượng độ sâu đo khoảng cách của các vật thể trong không gian 3D từ chính máy ảnh. Mặc dù một khoảng cách hiệu chuẩn đơn giản có thể đủ cho một số tác vụ, nhưng ước lượng độ sâu cung cấp thông tin không gian chi tiết hơn.
  • Phát hiện Đối tượng 3D: Ước tính độ sâu là yếu tố then chốt cho phát hiện đối tượng 3D . Trong khi phát hiện đối tượng 2D vẽ một khung giới hạn xung quanh một đối tượng trên ảnh phẳng, phát hiện đối tượng 3D đặt một khối hộp 3D xung quanh nó, xác định vị trí, kích thước và hướng của đối tượng trong không gian ba chiều. Khả năng phát hiện nâng cao này chỉ có thể thực hiện được với thông tin độ sâu chính xác.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard