Hãy tìm hiểu cách thức hoạt động của phương pháp ước lượng độ sâu đơn ảnh, so sánh nó với các phương pháp đo độ sâu dựa trên cảm biến, và cách nó cho phép nhận thức 3D có khả năng mở rộng trong các hệ thống thị giác.
Hãy tìm hiểu cách thức hoạt động của phương pháp ước lượng độ sâu đơn ảnh, so sánh nó với các phương pháp đo độ sâu dựa trên cảm biến, và cách nó cho phép nhận thức 3D có khả năng mở rộng trong các hệ thống thị giác.
Xe tự lái được thiết kế để hiểu những gì đang xảy ra xung quanh chúng nhằm mục đích lái xe an toàn. Điều này có nghĩa là chúng không chỉ đơn thuần nhận diện các vật thể như người đi bộ hoặc các phương tiện khác.
Chúng cũng cần biết khoảng cách của các vật thể đó để phản hồi chính xác. Tuy nhiên, việc trang bị cho máy móc khả năng cảm nhận khoảng cách này không hề đơn giản. Không giống như con người, chúng không tự nhiên nhận biết được chiều sâu từ hình ảnh và cần được dạy một cách rõ ràng để làm điều đó.
Một lý do đằng sau điều này là hầu hết các máy ảnh đều ghi lại thế giới dưới dạng hình ảnh phẳng, hai chiều. Việc chuyển đổi những hình ảnh đó thành thứ phản ánh chiều sâu và cấu trúc 3D của thế giới thực là rất khó khăn, đặc biệt khi các hệ thống cần hoạt động đáng tin cậy trong điều kiện hàng ngày.
Điều thú vị là, thị giác máy tính , một nhánh của trí tuệ nhân tạo tập trung vào việc diễn giải và hiểu dữ liệu hình ảnh, cho phép máy móc hiểu thế giới tốt hơn từ hình ảnh. Ví dụ, ước lượng độ sâu đơn ảnh là một kỹ thuật thị giác máy tính ước tính khoảng cách của các vật thể chỉ bằng một hình ảnh từ một camera duy nhất.
Bằng cách học các tín hiệu thị giác như kích thước vật thể, phối cảnh, kết cấu và độ bóng, các mô hình này có thể dự đoán độ sâu mà không cần dựa vào các cảm biến bổ sung như LiDAR (Phát hiện và đo khoảng cách bằng ánh sáng) hoặc camera lập thể. Trong bài viết này, chúng ta sẽ tìm hiểu về ước lượng độ sâu đơn ảnh, cách thức hoạt động và một số ứng dụng thực tế của nó. Bắt đầu nào!
Phương pháp ước lượng độ sâu đơn ảnh cho phép máy móc hiểu được khoảng cách của các vật thể so với nó chỉ bằng một hình ảnh duy nhất. Vì chỉ dựa vào một camera , phương pháp này có một số ưu điểm, bao gồm chi phí thấp hơn và yêu cầu phần cứng đơn giản hơn.
Ví dụ, công nghệ này có thể được sử dụng trong các robot gia đình giá cả phải chăng hoạt động chỉ với một camera. Ngay cả từ một hình ảnh duy nhất, hệ thống robot có thể xác định bức tường nào gần hơn và cửa nào xa hơn, đồng thời suy ra độ sâu tổng thể của không gian.
Thông thường, một hình ảnh đơn lẻ không chứa thông tin ở tỷ lệ chính xác, vì vậy việc ước lượng độ sâu bằng ảnh đơn thường tập trung vào độ sâu tương đối. Nói cách khác, nó có thể xác định vật thể nào gần hơn và vật thể nào xa hơn, ngay cả khi không biết khoảng cách chính xác.
Khi một mô hình được huấn luyện trên dữ liệu có khoảng cách thực tế hoặc độ sâu tuyệt đối, chẳng hạn như các phép đo độ sâu từ các cảm biến như LiDAR, nó có thể học cách dự đoán khoảng cách theo đơn vị thực tế, chẳng hạn như mét. Nếu không có loại dữ liệu tham chiếu này, mô hình vẫn có thể suy ra độ sâu tương đối nhưng không thể ước tính khoảng cách tuyệt đối một cách đáng tin cậy.
Kết quả của phương pháp ước lượng độ sâu đơn ảnh thường là bản đồ độ sâu, là một hình ảnh trong đó mỗi pixel biểu thị khoảng cách gần hay xa của phần đó trong khung cảnh. Bản đồ độ sâu cung cấp cho hệ thống thị giác sự hiểu biết cơ bản về cấu trúc 3D của môi trường.

Việc ước lượng độ sâu có thể được thực hiện theo nhiều cách khác nhau, tùy thuộc vào các cảm biến sẵn có, các hạn chế về phần cứng và yêu cầu về độ chính xác. Các phương pháp truyền thống thường dựa vào nhiều góc nhìn hoặc các cảm biến chuyên dụng để đo khoảng cách trực tiếp.
Một phương pháp phổ biến là thị giác lập thể, ước tính độ sâu bằng cách so sánh hai hình ảnh được chụp đồng bộ từ các góc nhìn hơi khác nhau. Bằng cách đo sự khác biệt giữa các điểm tương ứng trong hai hình ảnh, hệ thống có thể suy ra khoảng cách của các vật thể đến máy ảnh.
Một phương pháp khác là hệ thống RGB-D (Đỏ, Xanh lục, Xanh lam và Độ sâu), sử dụng cảm biến độ sâu chủ động để đo trực tiếp khoảng cách tại mỗi pixel. Các hệ thống này có thể cung cấp thông tin độ sâu chính xác trong môi trường được kiểm soát nhưng yêu cầu phần cứng bổ sung.
Trong khi đó, các phương pháp dựa trên LiDAR sử dụng xung laser để tạo ra hình ảnh ba chiều chính xác của một khung cảnh. Mặc dù có độ chính xác cao, cảm biến LiDAR thường đắt tiền và làm tăng đáng kể độ phức tạp của phần cứng.
Ngược lại, phương pháp ước lượng độ sâu đơn ảnh chỉ sử dụng một ảnh RGB duy nhất. Vì không phụ thuộc vào nhiều camera hay cảm biến chuyên dụng, phương pháp này dễ triển khai trên quy mô lớn và là lựa chọn tốt khi chi phí và tài nguyên phần cứng bị hạn chế.
Khi ước tính độ sâu từ một hình ảnh duy nhất, các mô hình độ sâu đơn sắc học cách nhận biết các tín hiệu thị giác mà con người sử dụng một cách bản năng để đánh giá khoảng cách. Những tín hiệu này bao gồm các đường phối cảnh, kích thước vật thể, mật độ kết cấu, sự chồng chéo của vật thể và độ bóng, tất cả đều cung cấp manh mối về khoảng cách của vật thể so với máy ảnh.
Những tín hiệu này phối hợp với nhau để tạo ra cảm giác về chiều sâu. Các vật thể trông nhỏ hơn hoặc bị che khuất một phần thường ở xa hơn, trong khi các chi tiết rõ nét hơn và vẻ ngoài lớn hơn thường cho thấy vật thể đó ở gần hơn.
Để học được các mô hình này, các mô hình độ sâu đơn ảnh được huấn luyện trên các tập dữ liệu hình ảnh quy mô lớn, thường được kết hợp với thông tin độ sâu thu được từ các nguồn khác như LiDAR hoặc hệ thống lập thể. Trong quá trình huấn luyện, các mô hình học cách các tín hiệu thị giác liên quan đến độ sâu, cho phép chúng suy luận khoảng cách từ một hình ảnh duy nhất tại thời điểm suy luận.
Với dữ liệu huấn luyện đa dạng, các mô hình thị giác hiện đại có thể khái quát hóa sự hiểu biết đã học được trên nhiều môi trường khác nhau, bao gồm cả cảnh trong nhà và ngoài trời, và có thể xử lý các góc nhìn không quen thuộc.
Tiếp theo, chúng ta sẽ tìm hiểu các phương pháp chính được sử dụng để ước tính độ sâu từ một hình ảnh duy nhất và cách các phương pháp này đã phát triển theo thời gian.
Các phương pháp ước lượng độ sâu ban đầu dựa trên các quy tắc thị giác đơn giản gắn liền với hình học của máy ảnh . Các tín hiệu như phối cảnh, kích thước vật thể và việc một vật thể có che khuất vật thể khác hay không được sử dụng để ước lượng khoảng cách.
Ví dụ, khi hai vật thể tương tự xuất hiện với kích thước khác nhau, vật thể nhỏ hơn được cho là ở xa hơn. Những phương pháp này hoạt động khá tốt trong môi trường được kiểm soát, nơi các yếu tố như ánh sáng, vị trí máy ảnh và bố cục cảnh được giữ ổn định.
Tuy nhiên, trong các tình huống thực tế, những giả định này thường không còn đúng. Sự thay đổi về ánh sáng, góc nhìn và độ phức tạp của cảnh vật có thể dẫn đến ước tính độ sâu không chính xác, hạn chế hiệu quả của các phương pháp cổ điển trong môi trường không được kiểm soát.
Các phương pháp học máy ban đầu đã mang lại sự linh hoạt hơn cho việc ước lượng độ sâu bằng cách học trực tiếp các mẫu từ dữ liệu. Thay vì chỉ dựa vào các quy tắc hình học cố định, các mô hình này đã cố gắng học mối quan hệ giữa thông tin hình ảnh và khoảng cách, coi dự đoán độ sâu như một bài toán hồi quy dựa trên các tín hiệu như cạnh, kết cấu và sự thay đổi màu sắc.
Việc lựa chọn các đặc điểm này là một phần quan trọng của quá trình. Các kỹ sư phải quyết định những tín hiệu hình ảnh nào cần trích xuất và cách biểu diễn chúng, và hiệu suất của mô hình phụ thuộc rất nhiều vào những lựa chọn đó.
Mặc dù phương pháp này hoạt động tốt hơn các phương pháp trước đó, nhưng nó vẫn còn những hạn chế. Nếu các đặc điểm được chọn thiếu ngữ cảnh quan trọng, dự đoán độ sâu sẽ kém chính xác hơn. Khi các cảnh trở nên phức tạp và đa dạng hơn, các mô hình này thường gặp khó khăn trong việc tạo ra kết quả đáng tin cậy.
Hầu hết các hệ thống ước lượng độ sâu đơn ảnh hiện đại đều sử dụng học sâu, tức là các mạng nơ-ron nhiều lớp có khả năng học các mẫu phức tạp từ dữ liệu. Các mô hình này học cách dự đoán độ sâu trực tiếp từ hình ảnh và tạo ra bản đồ độ sâu.
Nhiều phương pháp được xây dựng dựa trên mạng nơ-ron tích chập (CNN) , một loại mạng nơ-ron được thiết kế để xử lý hình ảnh bằng cách phát hiện các mẫu như cạnh và hình dạng. Các mô hình này thường sử dụng thiết lập bộ mã hóa-giải mã: bộ mã hóa trích xuất các đặc điểm hình ảnh, và bộ giải mã chuyển đổi các đặc điểm đó thành bản đồ độ sâu. Xử lý hình ảnh ở nhiều tỷ lệ giúp mô hình nắm bắt được bố cục tổng thể của cảnh trong khi vẫn thu được ranh giới đối tượng rõ ràng.
Các mô hình gần đây tập trung vào việc hiểu mối quan hệ giữa các phần khác nhau của một hình ảnh. Các mô hình dựa trên Transformer và Vision Transformer (ViT) sử dụng cơ chế chú ý, cho phép mô hình xác định vùng nào của hình ảnh là quan trọng nhất và liên kết các vùng xa nhau. Điều này giúp mô hình xây dựng sự hiểu biết nhất quán hơn về độ sâu trên toàn bộ khung cảnh.
Một số hệ thống kết hợp cả hai ý tưởng. Mô hình lai CNN–Transformer sử dụng mạng CNN để nắm bắt các chi tiết cục bộ nhỏ và Transformer để mô hình hóa bối cảnh tổng thể của khung cảnh. Mặc dù điều này thường cải thiện độ chính xác, nhưng nó thường yêu cầu nhiều tài nguyên tính toán hơn, chẳng hạn như bộ nhớ và sức mạnh xử lý bổ sung.
Khi tìm hiểu về ước lượng độ sâu đơn ảnh, bạn có thể tự hỏi tại sao khả năng hiểu độ sâu lại là một phần quan trọng của các hệ thống AI dựa trên thị giác.
Khi một hệ thống có thể ước lượng khoảng cách của các vật thể và bề mặt, nó sẽ hiểu rõ hơn về cách bố trí của một khung cảnh và mối quan hệ giữa các yếu tố khác nhau. Loại nhận thức không gian này rất cần thiết để đưa ra các quyết định đáng tin cậy, đặc biệt là trong các ứng dụng thực tế như lái xe tự động.
Thông tin chiều sâu cũng bổ sung ngữ cảnh có giá trị cho các tác vụ thị giác máy tính khác. Ví dụ, phát hiện đối tượng, được hỗ trợ bởi các mô hình như Ultralytics YOLO26 , có thể cho hệ thống biết những gì có trong một cảnh, nhưng chiều sâu giúp trả lời câu hỏi các đối tượng đó nằm ở đâu so với camera và so với nhau.
Nhờ sự kết hợp các khả năng này, trí tuệ nhân tạo thị giác có thể được ứng dụng rộng rãi, chẳng hạn như xây dựng bản đồ 3D, điều hướng trong môi trường phức tạp và hiểu toàn bộ khung cảnh.
Robot và xe tự hành phụ thuộc vào thông tin này để di chuyển an toàn, tránh chướng ngại vật và phản ứng với những thay đổi trong thời gian thực. Ví dụ, phương pháp lái xe chỉ dựa vào thị giác của Tesla sử dụng hình ảnh từ camera kết hợp với ước lượng độ sâu, thay vì LiDAR, để hiểu khoảng cách của các vật thể và vị trí của chúng trên đường.
Mặc dù kiến trúc mô hình có thể khác nhau, hầu hết các mô hình ước lượng độ sâu đơn ảnh đều tuân theo một quy trình tương tự để chuyển đổi một hình ảnh duy nhất thành bản đồ độ sâu. Dưới đây là tổng quan nhanh về các bước chính liên quan:
Quá trình chúng ta vừa thảo luận giả định rằng chúng ta đã có một mô hình được huấn luyện hoặc tiền huấn luyện. Nhưng việc huấn luyện một mô hình ước lượng độ sâu đơn ảnh thực sự hoạt động như thế nào?
Quá trình huấn luyện bắt đầu bằng việc chuẩn bị dữ liệu hình ảnh để mạng có thể xử lý hiệu quả. Hình ảnh đầu vào được thay đổi kích thước và chuẩn hóa về một tỷ lệ nhất quán, sau đó được đưa qua mô hình để tạo ra bản đồ độ sâu dự đoán, ước tính khoảng cách tại mỗi pixel.
Bản đồ độ sâu dự đoán sau đó được so sánh với dữ liệu độ sâu tham chiếu bằng cách sử dụng hàm mất mát, đo lường mức độ sai lệch giữa dự đoán của mô hình và độ sâu thực tế. Giá trị mất mát này thể hiện lỗi hiện tại của mô hình và cung cấp tín hiệu để cải thiện.
Bộ tối ưu hóa sử dụng tín hiệu này để cập nhật mô hình bằng cách điều chỉnh trọng số bên trong của nó. Để làm điều này, bộ tối ưu hóa tính toán độ dốc, mô tả sự thay đổi của tổn thất đối với từng tham số của mô hình, và áp dụng các cập nhật này lặp đi lặp lại qua nhiều epoch, hay nhiều lần chạy toàn bộ tập dữ liệu huấn luyện.
Quá trình huấn luyện học có giám sát lặp đi lặp lại này được hướng dẫn bởi các siêu tham số như tốc độ học, kiểm soát độ lớn của mỗi bước cập nhật, và kích thước lô, xác định số lượng hình ảnh được xử lý cùng một lúc. Vì quá trình huấn luyện liên quan đến một số lượng lớn các phép toán, nên nó thường được tăng tốc bằng cách sử dụng bộ xử lý đồ họa (GPU). GPU ), điều này rất tuyệt vời cho việc tính toán song song.
Sau khi quá trình huấn luyện hoàn tất, mô hình được đánh giá bằng các chỉ số đánh giá tiêu chuẩn trên tập dữ liệu xác thực, bao gồm các hình ảnh không được sử dụng trong quá trình huấn luyện. Việc đánh giá này giúp đo lường mức độ khái quát hóa của mô hình đối với dữ liệu mới.
Mô hình đã được huấn luyện sau đó có thể được tái sử dụng hoặc tinh chỉnh cho các kịch bản mới. Nhìn chung, quá trình huấn luyện này cho phép các mô hình ước lượng độ sâu đơn ảnh tạo ra các ước lượng độ sâu nhất quán, điều cần thiết cho các tác vụ tiếp theo như tái tạo 3D và triển khai thực tế.
Phương pháp ước lượng độ sâu đơn ảnh đã được cải thiện nhanh chóng nhờ các mô hình ngày càng tốt hơn trong việc hiểu toàn bộ khung cảnh chứ không chỉ các chi tiết hình ảnh nhỏ. Các phương pháp trước đây thường tạo ra bản đồ độ sâu không đồng đều, đặc biệt là trong môi trường phức tạp.
Các mô hình mới hơn, như đã thấy trong các nghiên cứu gần đây được công bố trên arXiv, tập trung nhiều hơn vào bối cảnh tổng thể, dẫn đến các dự đoán độ sâu trông ổn định và thực tế hơn. Các mô hình nổi tiếng như MiDaS và DPT đã góp phần thúc đẩy sự thay đổi này bằng cách học độ sâu từ các tập dữ liệu đa dạng, có độ phân giải cao và có khả năng khái quát hóa tốt trên nhiều khung cảnh khác nhau.
Các mô hình gần đây hơn, bao gồm ZoeDepth và Depth Anything V2, được xây dựng dựa trên nền tảng này bằng cách cải thiện tính nhất quán về tỷ lệ trong khi vẫn duy trì hiệu suất mạnh mẽ trên nhiều môi trường khác nhau. Loại tiến bộ này thường được đo lường bằng cách sử dụng các bộ dữ liệu chuẩn phổ biến như KITTI và NYU, bao gồm cả cảnh ngoài trời và trong nhà.
Một xu hướng rõ ràng khác là cân bằng giữa độ chính xác và tính thực tiễn. Các mô hình nhỏ hơn được tối ưu hóa về tốc độ và có thể chạy trong thời gian thực trên các thiết bị đầu cuối hoặc thiết bị di động, trong khi các mô hình lớn hơn ưu tiên độ phân giải cao hơn và độ chính xác chiều sâu tầm xa.
Tiếp theo, chúng ta hãy cùng xem xét một số ví dụ thực tế cho thấy cách ước lượng độ sâu đơn ảnh được sử dụng để suy luận về cấu trúc 3D của một cảnh từ một hình ảnh duy nhất.
Trong tất cả các trường hợp này, điều quan trọng cần ghi nhớ là thông tin về độ sâu chỉ là ước tính được suy ra từ các tín hiệu thị giác, chứ không phải là phép đo chính xác. Điều này làm cho việc ước tính độ sâu bằng một ảnh hữu ích để hiểu bố cục tương đối và các mối quan hệ không gian, nhưng không thể thay thế cho các cảm biến được thiết kế để đo khoảng cách chính xác, chẳng hạn như LiDAR hoặc hệ thống lập thể.
Máy bay không người lái thường hoạt động trong môi trường có tín hiệu GPS không ổn định, chẳng hạn như rừng, công trường xây dựng, khu vực thiên tai hoặc khu vực đô thị đông đúc. Để bay an toàn trong những điều kiện này, chúng cần hiểu rõ địa hình xung quanh và biết khoảng cách đến các chướng ngại vật. Trước đây, điều này thường đòi hỏi phải bổ sung các cảm biến như LiDAR hoặc camera lập thể, làm tăng trọng lượng, mức tiêu thụ điện năng và chi phí tổng thể.
Ước lượng độ sâu đơn ảnh là một giải pháp thay thế đơn giản hơn. Chỉ sử dụng một camera RGB duy nhất, máy bay không người lái có thể ước lượng độ sâu từ hình ảnh và xây dựng hiểu biết 3D cơ bản về môi trường xung quanh. Điều này cho phép chúng... detect Các chướng ngại vật như tòa nhà, cây cối hoặc sự thay đổi đột ngột về địa hình cho phép máy bay điều chỉnh đường bay trong thời gian thực.
Các ước tính độ sâu này hỗ trợ các nhiệm vụ điều hướng quan trọng, bao gồm tránh chướng ngại vật, kiểm soát độ cao và hạ cánh an toàn. Do đó, máy bay không người lái hạng nhẹ có thể thực hiện các nhiệm vụ lập bản đồ, kiểm tra và điều hướng mà không cần dựa vào các cảm biến độ sâu chuyên dụng.

Xe tự lái thường dựa nhiều vào cảm biến LiDAR, sử dụng xung laser để đo khoảng cách và tạo hình ảnh 3D của đường. Mặc dù có độ chính xác cao, LiDAR có thể gặp khó khăn với các gờ đường sắc nhọn, độ dốc lớn, vật cản hoặc độ nghiêng đột ngột của xe, đôi khi trả về dữ liệu độ sâu thưa thớt hoặc bị thiếu.
Ước lượng độ sâu đơn ảnh có thể giúp lấp đầy những khoảng trống này bằng cách cung cấp thông tin độ sâu dày đặc từ một ảnh RGB duy nhất, ngay cả khi dữ liệu LiDAR không đầy đủ. Hãy xem xét một kịch bản trong đó một chiếc xe tự lái đang tiến đến đỉnh đồi với tốc độ cao. Các chùm tia LiDAR có thể vượt quá con đường phía sau đỉnh đồi, gây ra sự không chắc chắn về những gì nằm phía trước.
Tuy nhiên, phương pháp ước lượng độ sâu dựa trên camera vẫn có thể suy ra hình dạng của con đường từ các tín hiệu thị giác như phối cảnh và kết cấu, giúp xe duy trì khả năng nhận biết đáng tin cậy cho đến khi dữ liệu LiDAR ổn định. Kết hợp LiDAR và ước lượng độ sâu đơn ảnh cho phép khả năng nhận biết ổn định hơn và điều khiển an toàn hơn trong điều kiện lái xe khó khăn.

Robot thường được vận hành ở những nơi không có bản đồ chi tiết và điều kiện thay đổi liên tục. Để di chuyển an toàn, chúng cần có khả năng nhận biết chính xác không gian xung quanh và vị trí các chướng ngại vật.
Phương pháp ước lượng độ sâu đơn ảnh có thể cung cấp nhận thức không gian này bằng cách sử dụng một camera RGB duy nhất, mà không cần dựa vào phần cứng cồng kềnh hoặc đắt tiền. Bằng cách học các tín hiệu thị giác như tỷ lệ và phối cảnh, các mô hình ước lượng độ sâu có thể tạo ra bản đồ độ sâu chi tiết của môi trường xung quanh. Điều này giúp robot có cái nhìn rõ ràng về khoảng cách đến các bề mặt và vật thể.
Đặc biệt, khi thông tin chiều sâu được kết hợp với các tác vụ thị giác máy tính như phát hiện đối tượng và phân đoạn ngữ nghĩa, robot có thể có được cái nhìn toàn diện hơn về môi trường xung quanh. Chúng có thể nhận dạng đối tượng, hiểu khoảng cách của chúng và quyết định vị trí an toàn để di chuyển. Điều này hỗ trợ việc tránh chướng ngại vật, phát hiện không gian trống và lập kế hoạch đường đi theo thời gian thực.

Dưới đây là một số ưu điểm chính của việc sử dụng phương pháp ước lượng độ sâu đơn ảnh:
Mặc dù phương pháp ước lượng độ sâu bằng một mắt mang lại những lợi ích rõ rệt, nhưng vẫn có một số hạn chế cần xem xét:
Mặc dù ước lượng độ sâu đơn ảnh là một lĩnh vực nghiên cứu thú vị, điều quan trọng là phải hiểu nó có thể được sử dụng thực tế ở đâu và không thể được sử dụng ở đâu. Khoảng cách mà nó tạo ra là ước tính dựa trên những gì mô hình nhìn thấy trong hình ảnh, chứ không phải là các phép đo chính xác được thực hiện trong thế giới thực.
Do đó, chất lượng kết quả có thể thay đổi tùy thuộc vào các yếu tố như ánh sáng, độ phức tạp của cảnh và mức độ tương đồng giữa cảnh đó với dữ liệu mà mô hình được huấn luyện. Ước lượng độ sâu đơn ảnh thường tốt trong việc xác định vật thể ở gần và vật thể ở xa, nhưng không đáng tin cậy khi cần khoảng cách chính xác.
Trong những trường hợp cần độ chính xác cao, chẳng hạn như các hệ thống an toàn quan trọng, kiểm tra công nghiệp hoặc robot cần tương tác rất chính xác với các vật thể, độ sâu cần được đo trực tiếp. Các cảm biến như LiDAR, radar, camera lập thể hoặc hệ thống ánh sáng cấu trúc được thiết kế cho mục đích này và cung cấp thông tin khoảng cách đáng tin cậy hơn nhiều.
Ước lượng độ sâu bằng một mắt cũng có thể gặp khó khăn trong điều kiện thị giác phức tạp. Ánh sáng yếu, bóng tối mạnh, bề mặt phản chiếu hoặc trong suốt, sương mù, khói hoặc cảnh vật có rất ít chi tiết hình ảnh đều có thể làm cho việc ước lượng độ sâu kém tin cậy hơn. Ước lượng độ sâu ở khoảng cách xa là một trường hợp khác mà các cảm biến chuyên dụng thường hoạt động tốt hơn.
Đối với các giải pháp thực tế, ước lượng độ sâu đơn ảnh hoạt động tốt nhất như một công cụ hỗ trợ hơn là một giải pháp độc lập. Nó có thể bổ sung ngữ cảnh không gian hữu ích, giúp lấp đầy những khoảng trống khi các cảm biến khác bị hạn chế và cải thiện khả năng hiểu toàn cảnh. Tuy nhiên, nó không nên là nguồn thông tin độ sâu duy nhất khi độ chính xác, an toàn hoặc các yêu cầu nghiêm ngặt về độ tin cậy là quan trọng.
Ước lượng độ sâu đơn ảnh là một kỹ thuật thị giác máy tính cho phép máy móc ước tính khoảng cách của các vật thể chỉ bằng một hình ảnh từ camera duy nhất. Bằng cách học các tín hiệu thị giác như phối cảnh, kích thước vật thể, kết cấu và độ bóng, các mô hình AI này có thể suy ra cấu trúc 3D của một cảnh mà không cần dựa vào các cảm biến như LiDAR hoặc camera stereo. Điều này làm cho ước lượng độ sâu đơn ảnh trở thành một phương pháp tiết kiệm chi phí và có khả năng mở rộng cho các ứng dụng như lái xe tự động, robot và hiểu biết cảnh 3D.
Để tìm hiểu thêm về Vision AI, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Xem các trang giải pháp của chúng tôi để tìm hiểu về AI trong robot và thị giác máy tính trong sản xuất . Khám phá các tùy chọn cấp phép của chúng tôi để bắt đầu với thị giác máy tính ngay hôm nay!