Hướng dẫn

Ước tính độ sâu đơn mắt là gì? Tổng quan

Tìm hiểu cách hoạt động của ước tính độ sâu đơn mắt (monocular depth estimation), cách so sánh với các phương pháp dựa trên cảm biến và cách nó cho phép nhận thức 3D có khả năng mở rộng trong các hệ thống thị giác.

ABAbirami Vina

8 min readFebruary 5, 2026

Bản đồ độ sâu dự đoán được tạo bằng cách sử dụng ước tính độ sâu đơn mắt

Xe tự lái được thiết kế để hiểu những gì đang xảy ra xung quanh để có thể di chuyển an toàn. Điều này đòi hỏi nhiều hơn là chỉ nhận diện các đối tượng như người đi bộ hoặc các phương tiện khác.

Chúng cũng cần biết khoảng cách đến các đối tượng đó để phản ứng chính xác. Tuy nhiên, việc cung cấp cho máy móc khả năng cảm nhận khoảng cách này không hề đơn giản. Không giống như con người, chúng không tự nhiên cảm nhận được độ sâu từ hình ảnh và phải được dạy cách thực hiện điều đó một cách tường minh.

Một lý do cho điều này là hầu hết camera ghi lại thế giới dưới dạng hình ảnh phẳng, hai chiều. Việc biến đổi những hình ảnh đó thành thứ phản ánh độ sâu thực tế và cấu trúc 3D là rất khó khăn, đặc biệt là khi các hệ thống cần hoạt động đáng tin cậy trong các điều kiện hàng ngày.

Thú vị là, computer vision, một nhánh của AI tập trung vào việc diễn giải và hiểu dữ liệu hình ảnh, giúp máy móc hiểu rõ hơn về thế giới từ các hình ảnh. Ví dụ, ước lượng depth estimation đơn ảnh là một kỹ thuật computer vision ước tính khoảng cách của các đối tượng chỉ sử dụng một hình ảnh từ camera.

Bằng cách học các tín hiệu thị giác như kích thước đối tượng, phối cảnh, kết cấu và đổ bóng, các model này có thể dự đoán độ sâu mà không cần dựa vào các cảm biến bổ sung như LiDAR (Light Detection and Ranging) hoặc camera stereo. Trong bài viết này, chúng ta sẽ khám phá ước lượng độ sâu đơn ảnh là gì, cách thức hoạt động và một số ứng dụng thực tế của nó. Hãy bắt đầu nào!

Link to this sectionGiới thiệu nhanh về ước lượng độ sâu đơn ảnh#

Ước lượng độ sâu đơn ảnh cho phép máy móc hiểu các đối tượng cách nó bao xa chỉ bằng một hình ảnh duy nhất. Vì chỉ dựa trên một camera, phương pháp này có nhiều ưu điểm, bao gồm chi phí thấp hơn và yêu cầu phần cứng đơn giản hơn.

Ví dụ, nó có thể được sử dụng trong các robot gia đình giá rẻ hoạt động với một camera duy nhất. Ngay cả từ một hình ảnh đơn lẻ, hệ thống robot có thể xác định bức tường nào gần hơn và cửa nào xa hơn, đồng thời suy luận độ sâu tổng thể của không gian.

Thông thường, một hình ảnh đơn lẻ không chứa thông tin ở tỷ lệ chính xác, do đó ước lượng độ sâu đơn ảnh thường tập trung vào độ sâu tương đối. Nói cách khác, nó có thể xác định đối tượng nào gần hơn và đối tượng nào xa hơn, ngay cả khi không biết khoảng cách chính xác.

Khi một model được huấn luyện trên dữ liệu với khoảng cách ground-truth hoặc độ sâu tuyệt đối, chẳng hạn như các phép đo độ sâu từ cảm biến như LiDAR, nó có thể học cách dự đoán khoảng cách theo đơn vị thực tế, như mét. Nếu không có dữ liệu tham chiếu này, model vẫn có thể suy luận độ sâu tương đối nhưng không thể ước tính khoảng cách tuyệt đối một cách đáng tin cậy.

Đầu ra của ước lượng độ sâu đơn ảnh thường là bản đồ độ sâu, là một hình ảnh trong đó mỗi pixel thể hiện phần đó của cảnh gần hay xa đến mức nào. Bản đồ độ sâu cung cấp cho các hệ thống thị giác sự hiểu biết cơ bản về cấu trúc 3D của môi trường.

Một ví dụ về bản đồ độ sâu dự đoán được tạo bằng ước lượng độ sâu đơn ảnh

Hình 1. Một ví dụ về bản đồ độ sâu dự đoán được tạo bằng ước lượng độ sâu đơn ảnh (Nguồn)

Link to this sectionTừ cảm biến đến hình ảnh: Ước lượng độ sâu#

Ước lượng độ sâu có thể được tiếp cận theo nhiều cách, tùy thuộc vào các cảm biến khả dụng, ràng buộc phần cứng và yêu cầu độ chính xác. Các phương pháp truyền thống thường dựa vào nhiều góc nhìn hoặc các cảm biến chuyên dụng để đo khoảng cách trực tiếp.

Một phương pháp phổ biến là thị giác stereo (stereo vision), ước tính độ sâu bằng cách so sánh hai hình ảnh đồng bộ được chụp từ các góc nhìn hơi khác nhau. Bằng cách đo sự khác biệt giữa các điểm tương ứng trong hai hình ảnh, hệ thống có thể suy luận các đối tượng cách camera bao xa.

Một phương pháp khác là hệ thống RGB-D (Red, Green, Blue, and Depth), sử dụng các cảm biến độ sâu chủ động để đo trực tiếp khoảng cách tại mỗi pixel. Các hệ thống này có thể cung cấp thông tin độ sâu chính xác trong môi trường được kiểm soát nhưng yêu cầu phần cứng bổ sung.

Trong khi đó, các phương pháp dựa trên LiDAR sử dụng các xung laser để tạo ra các biểu diễn ba chiều chính xác của một cảnh. Mặc dù rất chính xác, cảm biến LiDAR thường đắt đỏ và làm tăng độ phức tạp phần cứng đáng kể.

Ngược lại, ước lượng độ sâu đơn ảnh suy luận độ sâu chỉ sử dụng một hình ảnh RGB. Vì nó không phụ thuộc vào nhiều camera hoặc cảm biến chuyên dụng, nó dễ triển khai hơn ở quy mô lớn và là lựa chọn tốt khi chi phí và tài nguyên phần cứng bị hạn chế.

Link to this sectionHọc độ sâu từ một hình ảnh duy nhất#

Khi ước lượng độ sâu từ một hình ảnh duy nhất, các model độ sâu đơn ảnh học cách nhận diện các tín hiệu thị giác mà con người sử dụng theo bản năng để đánh giá khoảng cách. Những tín hiệu này bao gồm các đường phối cảnh, kích thước đối tượng, mật độ kết cấu, sự chồng lấp đối tượng và đổ bóng, tất cả đều cung cấp gợi ý về khoảng cách của các đối tượng so với camera.

Các tín hiệu này hoạt động cùng nhau để tạo ra cảm giác về độ sâu. Các đối tượng trông nhỏ hơn hoặc bị che khuất một phần thường ở xa hơn, trong khi các chi tiết rõ ràng hơn và hình ảnh trực quan lớn hơn thường gợi ý rằng một cái gì đó ở gần hơn.

Để học các mô hình này, các model độ sâu đơn ảnh được huấn luyện trên các tập dữ liệu hình ảnh quy mô lớn, thường được ghép nối với thông tin độ sâu thu được từ các nguồn khác như LiDAR hoặc hệ thống stereo. Trong quá trình huấn luyện, các model học cách các tín hiệu thị giác liên quan đến độ sâu, cho phép chúng suy luận khoảng cách từ một hình ảnh đơn lẻ tại thời điểm suy luận (inference time).

Với dữ liệu huấn luyện đa dạng, các model thị giác hiện đại có thể khái quát hóa sự hiểu biết đã học này trên nhiều môi trường khác nhau, bao gồm các cảnh trong nhà và ngoài trời, và có thể xử lý các góc nhìn không quen thuộc.

Link to this sectionXem xét các kỹ thuật ước lượng độ sâu đơn ảnh khác nhau#

Tiếp theo, chúng ta sẽ khám phá các phương pháp chính được sử dụng để ước lượng độ sâu từ một hình ảnh đơn lẻ và cách các phương pháp này đã phát triển theo thời gian.

Link to this sectionCác phương pháp tiếp cận cổ điển và dựa trên hình học#

Các phương pháp ước lượng độ sâu ban đầu dựa trên các quy tắc thị giác đơn giản gắn liền với camera geometry. Các tín hiệu như phối cảnh, kích thước đối tượng và việc một đối tượng có che khuất đối tượng khác hay không đã được sử dụng để ước tính khoảng cách.

Ví dụ, khi hai đối tượng tương tự xuất hiện với kích thước khác nhau, đối tượng nhỏ hơn được cho là ở xa hơn. Các phương pháp này hoạt động khá tốt trong các môi trường được kiểm soát nơi các yếu tố như ánh sáng, vị trí camera và bố cục cảnh được giữ nhất quán.

Tuy nhiên, trong các cảnh thực tế, những giả định này thường bị phá vỡ. Sự thay đổi về ánh sáng, thay đổi góc nhìn và độ phức tạp của cảnh tăng lên có thể dẫn đến các ước tính độ sâu không đáng tin cậy, hạn chế hiệu quả của các phương pháp cổ điển trong môi trường không được kiểm soát.

Link to this sectionCác phương pháp học máy ban đầu#

Các phương pháp học máy ban đầu mang lại sự linh hoạt hơn cho ước lượng độ sâu bằng cách học các mô hình trực tiếp từ dữ liệu. Thay vì chỉ dựa vào các quy tắc hình học cố định, các model này cố gắng học mối quan hệ giữa thông tin thị giác và khoảng cách, coi dự đoán độ sâu là một bài toán hồi quy dựa trên các tín hiệu như cạnh, kết cấu và thay đổi màu sắc.

Việc lựa chọn các đặc trưng này là một phần quan trọng của quá trình. Các kỹ sư phải quyết định các tín hiệu thị giác nào cần trích xuất và cách biểu diễn chúng, và hiệu suất của model phụ thuộc rất nhiều vào những lựa chọn đó.

Mặc dù phương pháp này hoạt động tốt hơn các phương pháp trước đó, nhưng nó vẫn có những giới hạn. Nếu các đặc trưng được chọn thiếu bối cảnh quan trọng, các dự đoán độ sâu sẽ kém chính xác hơn. Khi các cảnh trở nên phức tạp và đa dạng hơn, các model này thường gặp khó khăn để đưa ra kết quả đáng tin cậy.

Link to this sectionCác thuật toán deep learning#

Hầu hết các hệ thống ước lượng độ sâu đơn ảnh hiện đại đều sử dụng deep learning, đề cập đến các mạng neural với nhiều lớp có thể học các mô hình phức tạp từ dữ liệu. Các model này học cách dự đoán độ sâu trực tiếp từ hình ảnh và tạo ra các bản đồ độ sâu.

Nhiều phương pháp được xây dựng bằng cách sử dụng convolutional neural networks (CNNs), một loại mạng neural được thiết kế để xử lý hình ảnh bằng cách phát hiện các mô hình như cạnh và hình dạng. Các model này thường sử dụng cấu trúc bộ mã hóa-giải mã (encoder–decoder): bộ mã hóa trích xuất các đặc trưng thị giác từ hình ảnh, và bộ giải mã chuyển đổi các đặc trưng đó thành bản đồ độ sâu. Xử lý hình ảnh ở nhiều quy mô giúp model nắm bắt bố cục tổng thể của cảnh trong khi vẫn giữ được các ranh giới đối tượng rõ ràng.

Các model gần đây hơn tập trung vào việc hiểu các mối quan hệ giữa các phần khác nhau của một hình ảnh. Các model dựa trên Transformer và Vision Transformer (ViT) sử dụng các cơ chế chú ý (attention mechanisms), cho phép model xác định các vùng nào của hình ảnh là quan trọng nhất và liên kết các vùng xa với nhau. Điều này giúp model xây dựng sự hiểu biết nhất quán hơn về độ sâu trên toàn bộ cảnh.

Một số hệ thống kết hợp cả hai ý tưởng. Các model lai CNN–Transformer sử dụng CNN để nắm bắt các chi tiết cục bộ tinh tế và Transformers để mô hình hóa bối cảnh toàn cầu của cảnh. Mặc dù điều này thường cải thiện độ chính xác, nó thường đòi hỏi nhiều tài nguyên tính toán hơn, chẳng hạn như bộ nhớ bổ sung và năng lực xử lý.

Link to this sectionTại sao hiểu biết về độ sâu lại quan trọng đối với các hệ thống AI thị giác#

Khi bạn tìm hiểu về ước lượng độ sâu đơn ảnh, bạn có thể tự hỏi tại sao hiểu biết về độ sâu lại là một phần quan trọng như vậy trong các hệ thống AI dựa trên thị giác.

Khi một hệ thống có thể ước tính các đối tượng và bề mặt cách xa bao nhiêu, nó hiểu rõ hơn về cách một cảnh được sắp xếp và cách các phần tử khác nhau liên quan với nhau. Loại nhận thức không gian này là cần thiết để đưa ra các quyết định đáng tin cậy, đặc biệt là trong các ứng dụng thực tế như xe tự lái.

Thông tin độ sâu cũng thêm bối cảnh có giá trị cho các tác vụ computer vision khác. Ví dụ, phát hiện đối tượng, được hỗ trợ bởi các model như Ultralytics YOLO26, có thể cho hệ thống biết những gì có trong một cảnh, nhưng độ sâu giúp trả lời câu hỏi các đối tượng đó nằm ở đâu so với camera và so với nhau.

Cùng với nhau, các khả năng này cho phép một loạt các ứng dụng AI thị giác, chẳng hạn như xây dựng bản đồ 3D, điều hướng trong môi trường phức tạp và hiểu một cảnh như một tổng thể.

Robot và phương tiện tự lái phụ thuộc vào thông tin này để di chuyển an toàn, tránh chướng ngại vật và phản ứng với những thay đổi trong thời gian thực. Ví dụ, phương pháp Tesla’s vision-only driving dựa vào hình ảnh camera kết hợp với ước lượng độ sâu, thay vì LiDAR, để hiểu các đối tượng cách xa bao nhiêu và chúng được đặt ở đâu trên đường.

Link to this sectionCác model ước lượng độ sâu đơn ảnh hoạt động như thế nào#

Mặc dù kiến trúc model khác nhau, hầu hết các model ước lượng độ sâu đơn ảnh đều tuân theo một quy trình tương tự để chuyển đổi một hình ảnh đơn lẻ thành một bản đồ độ sâu. Dưới đây là tổng quan nhanh về các bước chính liên quan:

Đầu vào và tiền xử lý: Quy trình bắt đầu với một hình ảnh đầu vào. Trước khi được đưa vào model, hình ảnh gốc thường được thay đổi kích thước, chuẩn hóa và chuyển đổi thành một tensor, đây là định dạng mà các mạng neural sử dụng để xử lý dữ liệu hình ảnh một cách hiệu quả.
Trích xuất đặc trưng: Một mạng encoder phân tích hình ảnh để trích xuất các đặc trưng thị giác có ý nghĩa. Các đặc trưng này nắm bắt thông tin như kết cấu, ranh giới đối tượng và bố cục tổng thể của cảnh. Hầu hết các model hoạt động ở nhiều quy mô để chúng có thể hiểu cả các chi tiết tinh tế và cấu trúc toàn cầu.
Suy luận độ sâu: Sử dụng các đặc trưng đã trích xuất, model kết hợp các chi tiết cục bộ với bối cảnh toàn cầu để suy luận về các mối quan hệ không gian trong cảnh. Ở giai đoạn này, nó học vùng nào của hình ảnh gần camera hơn và vùng nào xa hơn.
Tạo bản đồ độ sâu: Sau đó, một bộ giải mã (decoder) chuyển đổi thông tin này thành một bản đồ độ sâu dày đặc. Mỗi pixel trong hình ảnh được gán một giá trị độ sâu, thường bằng cách trộn các dự đoán từ các quy mô khác nhau để cải thiện độ chính xác và tính nhất quán.

Link to this sectionCác model ước lượng độ sâu đơn ảnh được huấn luyện như thế nào#

Quy trình chúng ta vừa thảo luận giả định rằng chúng ta đã có một model đã được huấn luyện hoặc huấn luyện trước. Nhưng việc huấn luyện một model ước lượng độ sâu đơn ảnh thực sự hoạt động như thế nào?

Quá trình huấn luyện bắt đầu bằng việc chuẩn bị dữ liệu hình ảnh để nó có thể được mạng xử lý hiệu quả. Các hình ảnh đầu vào được thay đổi kích thước và chuẩn hóa theo một tỷ lệ nhất quán, sau đó được truyền qua model để tạo ra một bản đồ độ sâu dự đoán ước tính khoảng cách tại mỗi pixel.

Bản đồ độ sâu dự đoán sau đó được so sánh với dữ liệu độ sâu tham chiếu bằng cách sử dụng một hàm mất mát (loss function), hàm này đo lường xem dự đoán của model cách xa độ sâu thực tế (ground-truth) bao nhiêu. Giá trị mất mát này đại diện cho sai số hiện tại của model và cung cấp tín hiệu để cải thiện.

Một bộ tối ưu hóa (optimizer) sử dụng tín hiệu này để cập nhật model bằng cách điều chỉnh các trọng số nội bộ của nó. Để thực hiện điều này, bộ tối ưu hóa tính toán gradient, mô tả cách mất mát thay đổi liên quan đến từng tham số model, và áp dụng các cập nhật này lặp đi lặp lại qua nhiều epoch, hoặc các lượt truyền toàn bộ qua tập dữ liệu huấn luyện.

Quá trình huấn luyện học có giám sát lặp đi lặp lại này được hướng dẫn bởi các siêu tham số (hyperparameters) như tốc độ học (learning rate), kiểm soát mức độ lớn của mỗi bước cập nhật, và kích thước batch (batch size), xác định bao nhiêu hình ảnh được xử lý cùng một lúc. Vì quá trình huấn luyện liên quan đến một số lượng lớn các phép toán, nó thường được tăng tốc bằng cách sử dụng một đơn vị xử lý đồ họa (GPU), rất tốt cho tính toán song song.

Sau khi quá trình huấn luyện hoàn tất, model được đánh giá bằng các chỉ số đánh giá tiêu chuẩn trên tập hợp xác thực (validation set), bao gồm các hình ảnh không được sử dụng trong quá trình huấn luyện. Việc đánh giá này giúp đo lường mức độ khái quát hóa của model đối với dữ liệu mới.

Model đã huấn luyện sau đó có thể được tái sử dụng hoặc tinh chỉnh (fine-tune) cho các tình huống mới. Nhìn chung, quá trình huấn luyện này cho phép các model ước lượng độ sâu đơn ảnh tạo ra các ước tính độ sâu nhất quán, điều này rất cần thiết cho các tác vụ hạ nguồn như tái dựng 3D và triển khai thực tế.

Link to this sectionKhám phá các model hiện đại và xu hướng nghiên cứu#

Ước lượng độ sâu đơn ảnh đã cải thiện nhanh chóng khi các model trở nên tốt hơn trong việc hiểu toàn bộ cảnh thay vì chỉ các chi tiết thị giác nhỏ. Các phương pháp tiếp cận trước đó thường tạo ra các bản đồ độ sâu không đồng đều, đặc biệt là trong các môi trường phức tạp.

Các model mới hơn, như đã thấy trong các nghiên cứu gần đây được công bố trên arXiv, tập trung nhiều hơn vào bối cảnh toàn cầu, dẫn đến các dự đoán độ sâu trông ổn định và thực tế hơn. Các model nổi tiếng như MiDaS và DPT đã giúp thúc đẩy sự thay đổi này bằng cách học độ sâu từ các tập dữ liệu độ phân giải cao, đa dạng và khái quát hóa tốt trên nhiều cảnh.

Các model gần đây hơn, bao gồm ZoeDepth và Depth Anything V2, xây dựng dựa trên công trình này bằng cách cải thiện tính nhất quán về quy mô trong khi vẫn duy trì hiệu suất mạnh mẽ trên nhiều cài đặt. Tiến trình này thường được đo lường bằng cách sử dụng các tập dữ liệu benchmark phổ biến như KITTI và NYU, bao gồm cả các cảnh ngoài trời và trong nhà.

Một xu hướng rõ ràng khác là cân bằng giữa độ chính xác và tính thực tiễn. Các model nhỏ hơn được tối ưu hóa cho tốc độ và có thể chạy trong thời gian thực trên các thiết bị biên (edge) hoặc di động, trong khi các model lớn hơn ưu tiên độ phân giải cao hơn và độ chính xác độ sâu tầm xa.

Link to this sectionCác ứng dụng ước lượng độ sâu đơn ảnh#

Tiếp theo, hãy xem qua một số ví dụ thực tế cho thấy ước lượng độ sâu đơn ảnh được sử dụng như thế nào để suy luận về cấu trúc 3D của một cảnh từ một hình ảnh đơn lẻ.

Trong tất cả các trường hợp này, điều quan trọng cần nhớ là thông tin độ sâu là một ước tính được suy luận từ các tín hiệu thị giác, không phải là một phép đo chính xác. Điều này làm cho ước lượng độ sâu đơn ảnh hữu ích cho việc hiểu bố cục tương đối và các mối quan hệ không gian, nhưng không phải là sự thay thế cho các cảm biến được thiết kế để đo khoảng cách chính xác, chẳng hạn như LiDAR hoặc hệ thống stereo.

Link to this sectionLập bản đồ địa hình và điều hướng bằng máy bay không người lái#

Drones thường hoạt động trong các môi trường nơi tín hiệu GPS không đáng tin cậy, chẳng hạn như rừng, công trường xây dựng, vùng thiên tai hoặc các khu vực đô thị đông đúc. Để bay an toàn trong những điều kiện này, chúng cần hiểu địa hình xung quanh và biết các chướng ngại vật cách xa bao nhiêu. Trước đây, việc này thường đòi hỏi phải thêm các cảm biến như LiDAR hoặc camera stereo, làm tăng trọng lượng, tiêu thụ điện năng và chi phí tổng thể.

Ước lượng độ sâu đơn ảnh là một giải pháp thay thế đơn giản hơn. Chỉ sử dụng một camera RGB đơn lẻ, máy bay không người lái có thể ước tính độ sâu từ hình ảnh và xây dựng sự hiểu biết 3D cơ bản về môi trường của chúng. Điều này cho phép chúng phát hiện các chướng ngại vật như tòa nhà, cây cối hoặc những thay đổi đột ngột về địa hình và điều chỉnh đường bay của chúng trong thời gian thực.

Các ước tính độ sâu này hỗ trợ các tác vụ điều hướng chính, bao gồm tránh chướng ngại vật, kiểm soát độ cao và hạ cánh an toàn. Kết quả là, các máy bay không người lái hạng nhẹ có thể thực hiện các tác vụ lập bản đồ, kiểm tra và điều hướng mà không cần dựa vào các cảm biến độ sâu chuyên dụng.

Ước lượng độ sâu đơn ảnh được sử dụng để phân tích hình ảnh từ drone

Hình 2. Ước lượng độ sâu đơn ảnh có thể được sử dụng để phân tích hình ảnh từ drone (Nguồn)

Link to this sectionLấp đầy các điểm mù cho xe đua tự lái#

Các phương tiện tự lái thường dựa nhiều vào các cảm biến LiDAR, sử dụng xung laser để đo khoảng cách và xây dựng chế độ xem 3D của con đường. Mặc dù rất chính xác, LiDAR có thể gặp khó khăn với các đỉnh đường sắc nhọn, dốc đứng, sự che khuất hoặc độ nghiêng đột ngột của phương tiện, đôi khi trả về dữ liệu độ sâu thưa thớt hoặc bị thiếu.

Ước lượng độ sâu đơn ảnh có thể giúp lấp đầy những khoảng trống này bằng cách cung cấp thông tin độ sâu dày đặc từ một hình ảnh RGB duy nhất, ngay cả khi dữ liệu LiDAR không đầy đủ. Hãy xem xét một kịch bản nơi một chiếc self-driving car đang tiếp cận một đỉnh đồi ở tốc độ cao. Các tia LiDAR có thể vượt quá tầm nhìn so với con đường sau đỉnh dốc, để lại sự không chắc chắn về những gì nằm phía trước.

Tuy nhiên, ước lượng độ sâu dựa trên camera vẫn có thể suy luận hình dạng của con đường từ các tín hiệu thị giác như phối cảnh và kết cấu, giúp phương tiện duy trì nhận thức đáng tin cậy cho đến khi dữ liệu LiDAR ổn định. Cùng với nhau, LiDAR và ước lượng độ sâu đơn ảnh cho phép nhận thức ổn định hơn và điều khiển an toàn hơn trong các điều kiện lái xe đầy thử thách.

Một hình ảnh trực quan về việc sử dụng ước lượng độ sâu đơn ảnh cho xe đua tự lái

Hình 3. Một hình ảnh trực quan về việc sử dụng ước lượng độ sâu đơn ảnh cho xe đua tự lái (Nguồn)

Link to this sectionĐiều hướng robot và tránh chướng ngại vật#

Robot thường được vận hành ở những nơi không có bản đồ chi tiết và các điều kiện thay đổi liên tục. Để di chuyển an toàn, chúng cần một cảm giác đáng tin cậy về không gian xung quanh chúng và nơi đặt các chướng ngại vật.

Ước lượng độ sâu đơn ảnh có thể cung cấp nhận thức không gian này bằng cách sử dụng một camera RGB đơn lẻ mà không cần dựa vào phần cứng nặng hoặc đắt tiền. Bằng cách học các tín hiệu thị giác như tỷ lệ và phối cảnh, các model ước lượng độ sâu có thể tạo ra các bản đồ độ sâu dày đặc của môi trường xung quanh. Điều này mang lại cho robot cái nhìn rõ ràng về khoảng cách đến các bề mặt và đối tượng.

Đặc biệt, khi thông tin độ sâu được kết hợp với các tác vụ computer vision như object detection và segmentation ngữ nghĩa, robot có thể có được cái nhìn hoàn chỉnh hơn về môi trường của chúng. Chúng có thể xác định các đối tượng, hiểu khoảng cách của chúng và quyết định nơi nào an toàn để di chuyển. Điều này hỗ trợ việc tránh chướng ngại vật, phát hiện không gian trống và lập kế hoạch đường đi trong thời gian thực.

Phát hiện đối tượng bằng cách sử dụng ước lượng độ sâu đơn ảnh và phát hiện đối tượng

Hình 4. Phát hiện đối tượng bằng cách sử dụng ước lượng độ sâu đơn ảnh và phát hiện đối tượng (Nguồn)

Link to this sectionƯu điểm và nhược điểm của ước lượng độ sâu đơn ảnh#

Dưới đây là một số ưu điểm chính của việc sử dụng ước lượng độ sâu đơn ảnh:

Nhẹ và tiết kiệm năng lượng: Sử dụng một camera duy nhất làm giảm trọng lượng hệ thống và tiêu thụ điện năng, điều này đặc biệt quan trọng đối với robot di động, máy bay không người lái và hệ thống nhúng.
Thân thiện với hợp nhất cảm biến (sensor fusion): Độ sâu đơn ảnh có thể bổ sung cho các cảm biến khác, như LiDAR hoặc radar, bằng cách lấp đầy các khoảng trống hoặc cung cấp sự dự phòng.
Hoạt động trên nhiều môi trường: Cùng một phương pháp dựa trên camera có thể được sử dụng trong nhà, ngoài trời và trên các nền tảng khác nhau mà không yêu cầu thay đổi phần cứng.

Mặc dù ước lượng độ sâu đơn ảnh mang lại những lợi ích rõ ràng, dưới đây là một số hạn chế cần xem xét:

Độ chính xác thấp hơn so với các cảm biến chủ động: Mặc dù đang cải thiện nhanh chóng, ước lượng độ sâu đơn ảnh thường không thể sánh bằng độ chính xác tuyệt đối của LiDAR hoặc các cảm biến ánh sáng cấu trúc trong các điều kiện được kiểm soát.
Nhạy cảm với điều kiện ánh sáng: Hiệu suất có thể giảm trong môi trường ánh sáng yếu, bóng râm mạnh, chói sáng hoặc các cảnh có kết cấu kém.
Thách thức về khái quát hóa: Một model được huấn luyện trong một môi trường có thể không phải lúc nào cũng chuyển đổi đáng tin cậy sang các miền chưa biết mà không cần thích ứng hoặc tinh chỉnh.

Link to this sectionKhi nào không nên dựa vào ước lượng độ sâu đơn ảnh#

Mặc dù ước lượng độ sâu đơn ảnh là một lĩnh vực nghiên cứu thú vị, nhưng điều quan trọng là phải hiểu nơi nào nó có thể được sử dụng thực tế và nơi nào không thể. Các khoảng cách mà nó tạo ra là các ước tính dựa trên những gì model thấy trong một hình ảnh, không phải là các phép đo chính xác được thực hiện từ thế giới thực.

Vì lý do này, chất lượng kết quả có thể thay đổi tùy thuộc vào các yếu tố như ánh sáng, độ phức tạp của cảnh và mức độ tương đồng của cảnh với những gì model đã được huấn luyện. Ước lượng độ sâu đơn ảnh thường tốt trong việc cho biết cái gì gần hơn và cái gì xa hơn, nhưng nó không đáng tin cậy khi bạn cần khoảng cách chính xác.

Trong những tình huống mà độ chính xác thực sự quan trọng, chẳng hạn như các hệ thống quan trọng đối với an toàn, kiểm tra công nghiệp hoặc robot cần tương tác rất chính xác với các đối tượng, độ sâu cần được đo trực tiếp. Các cảm biến như LiDAR, radar, camera stereo hoặc hệ thống ánh sáng cấu trúc được thiết kế cho việc này và cung cấp thông tin khoảng cách đáng tin cậy hơn nhiều.

Ước lượng độ sâu đơn ảnh cũng có thể gặp khó khăn trong các điều kiện thị giác khó khăn. Ánh sáng kém, bóng râm mạnh, bề mặt phản chiếu hoặc trong suốt, sương mù, khói hoặc các cảnh có rất ít kết cấu thị giác đều có thể làm cho các ước tính độ sâu kém tin cậy hơn. Ước tính độ sâu ở khoảng cách xa là một trường hợp khác mà các cảm biến chuyên dụng thường hoạt động tốt hơn.

Đối với các giải pháp thực tế, monocular depth estimation hoạt động hiệu quả nhất như một công cụ hỗ trợ thay vì một giải pháp độc lập. Nó có thể bổ sung bối cảnh không gian hữu ích, giúp lấp đầy khoảng trống khi các cảm biến khác bị hạn chế và cải thiện khả năng hiểu cảnh quan tổng thể. Tuy nhiên, nó không nên là nguồn thông tin độ sâu duy nhất khi yêu cầu về độ chính xác, an toàn hoặc độ tin cậy nghiêm ngặt là yếu tố quan trọng.

Link to this sectionCác điểm chính cần lưu ý#

Monocular depth estimation là một kỹ thuật computer vision cho phép máy tính ước tính khoảng cách của các vật thể chỉ bằng một hình ảnh từ camera đơn. Bằng cách học các tín hiệu hình ảnh như phối cảnh, kích thước vật thể, kết cấu và đổ bóng, các model AI này có thể suy luận cấu trúc 3D của một cảnh quan mà không cần dựa vào các cảm biến như LiDAR hoặc camera stereo. Điều này làm cho monocular depth estimation trở thành một phương pháp tiết kiệm chi phí và có khả năng mở rộng cho các ứng dụng như xe tự hành, robotics và nhận diện cảnh quan 3D.

Để khám phá thêm về vision AI, hãy ghé thăm GitHub repository của chúng tôi và tham gia cộng đồng của chúng tôi. Hãy xem qua các trang giải pháp của chúng tôi để tìm hiểu về AI in robotics và computer vision in manufacturing. Khám phá our licensing options để bắt đầu với computer vision ngay hôm nay!

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm

Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm

AI trong Ô tô

Tìm hiểu thêm

AI trong Nông nghiệp

Tìm hiểu thêm

AI trong ngành Robot

Tìm hiểu thêm

AI trong Logistics

Tìm hiểu thêm

AI trong ngành Bán lẻ

Tìm hiểu thêm

AI trong chăm sóc sức khỏe

Tìm hiểu thêm

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm

AI trong Ô tô

Tìm hiểu thêm

AI trong Nông nghiệp

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning

Yêu cầu giấy phép Bắt đầu ngay