Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay

Làm thế nào để tính khoảng cách bằng các mô hình thị giác máy tính?

Abirami Vina

4 phút đọc

Ngày 3 tháng 4 năm 2025

Tìm hiểu cách tính khoảng cách trong các ứng dụng thị giác máy tính sử dụng Ultralytics YOLO11 giúp đo lường độ gần của các đối tượng trong thời gian thực.

Khi bạn băng qua đường và thấy một chiếc xe đang tiến về phía mình, bạn có thể ngay lập tức ước tính khoảng cách của nó. Khả năng phán đoán nhanh chóng, gần như bản năng này là nhờ vào sự hiểu biết về không gian xung quanh bạn. Dựa trên cảm giác này, bạn có thể quyết định tăng tốc, dừng lại hoặc tiếp tục đi bộ. 

Tương tự, thị giác máy tính là một nhánh của trí tuệ nhân tạo (AI), cho phép máy móc phát triển sự hiểu biết về môi trường xung quanh bằng cách diễn giải dữ liệu trực quan. Giống như cách bạn có thể đánh giá khoảng cách của ô tô để đưa ra quyết định nhanh chóng, các mô hình thị giác máy tính có thể phân tích hình ảnh và video, giúp máy móc cảm nhận và phản ứng với thế giới xung quanh.

Ví dụ: Ultralytics YOLO11 là một mô hình thị giác máy tính có thể phát hiện và theo dõi các đối tượng trong hình ảnh và video theo thời gian thực. Nói một cách đơn giản, YOLO11 hoạt động bằng cách xem toàn bộ hình ảnh cùng một lúc, thay vì theo từng phần, điều này làm cho nó nhanh hơn và hiệu quả hơn. Nó cũng có thể xử lý các tác vụ thị giác máy tính như phân đoạn thể hiện, ước tính tư thế và phân loại hình ảnh.

Đặc biệt, khả năng của YOLO11 có thể được sử dụng để tính toán khoảng cách giữa các đối tượng, điều này hữu ích trong nhiều lĩnh vực như sản xuất, bán lẻ và quản lý đám đông, giúp cải thiện sự an toàn và hiệu quả.

Trong bài viết này, chúng ta sẽ khám phá cách YOLO11 có thể được sử dụng để tính toán khoảng cách trong các ứng dụng thị giác máy tính, tại sao nó lại quan trọng và tác động của nó trên các ngành công nghiệp khác nhau.

__wf_reserved_inherit
Hình 1. Một ví dụ về sử dụng YOLO để tính toán khoảng cách hạ cánh của máy bay.

Tổng quan về tính toán khoảng cách trong thị giác máy tính

Tính toán khoảng cách trong thị giác máy tính bao gồm phát hiện, định vị và đo số lượng pixel giữa hai đối tượng trong một hình ảnh. Pixel là các đơn vị riêng lẻ tạo nên một hình ảnh kỹ thuật số, mỗi pixel đại diện cho một điểm duy nhất với một giá trị màu hoặc cường độ cụ thể. 

Để chuyển đổi các phép đo pixel thành khoảng cách thực tế, hiệu chỉnh là chìa khóa. Bạn có thể coi nó như việc sử dụng thước kẻ để đo một vật gì đó và sau đó sử dụng phép đo đó để hiểu kích thước của các vật thể khác. Bằng cách tham chiếu các đối tượng có kích thước đã biết, hiệu chỉnh tạo ra mối liên kết giữa các pixel và khoảng cách vật lý thực tế.

Hãy xem một ví dụ để xem cách thức hoạt động của nó. Trong hình bên dưới, đồng xu là đối tượng tham chiếu và kích thước của nó (0,9in x 1,0in) đã biết. Bằng cách so sánh các phép đo pixel của các đối tượng khác với kích thước của đồng xu, chúng ta có thể tính toán kích thước thực tế của chúng.

__wf_reserved_inherit
Hình 2. Một đồng xu có thể được sử dụng làm tham chiếu để đo kích thước thực tế của các vật thể khác.

Tuy nhiên, việc tính toán khoảng cách được thực hiện trên mặt phẳng hai chiều (2D), có nghĩa là nó chỉ đo khoảng cách theo chiều ngang và chiều dọc giữa các vật thể. Điều này khác với ước tính độ sâu, đo khoảng cách của các vật thể trong không gian ba chiều, bao gồm cả khoảng cách của chúng từ camera.

Mặc dù camera đo độ sâu có thể đo độ sâu thực và cung cấp thông tin không gian chi tiết hơn, nhưng trong nhiều trường hợp, một khoảng cách đã hiệu chỉnh đơn giản là đủ. Ví dụ: việc biết các đối tượng cách nhau bao xa trong mặt phẳng 2D hoạt động tốt cho các tác vụ như theo dõi đối tượng hoặc quản lý hàng đợi, vì vậy không cần ước tính độ sâu trong những tình huống đó.

Tìm hiểu cách tính khoảng cách bằng YOLO11

Tiếp theo, hãy cùng tìm hiểu cách tính khoảng cách giữa hai đối tượng bằng cách sử dụng hỗ trợ của YOLO11 cho phát hiện đối tượng và theo dõi. Đây là phân tích chi tiết:

  • Phát hiện và theo dõi các đối tượng: YOLO11 có thể được sử dụng để phát hiện các đối tượng bằng cách nhận dạng chúng trong một khung hình và theo dõi chuyển động của chúng trên các khung hình trong một video. Nó gán một ID theo dõi duy nhất cho mỗi đối tượng, cho phép hệ thống theo dõi vị trí và chuyển động của chúng trong suốt video.
  • Hộp giới hạn (Bounding boxes): Các hộp giới hạn được vẽ xung quanh các đối tượng được phát hiện dựa trên kết quả phát hiện đối tượng của YOLO11, xác định vị trí của chúng trong hình ảnh.
  • Chọn đối tượng: Có thể chọn hai đối tượng để tập trung vào, và YOLO11 cập nhật các bounding box khi các đối tượng di chuyển trong thời gian thực.
  • Tính toán trọng tâm (Centroid calculation): Trọng tâm (các điểm trung tâm của các hộp giới hạn của hai đối tượng) được tính toán dựa trên tọa độ của các góc hộp giới hạn, biểu thị vị trí của các đối tượng.
  • Tính khoảng cách: Các trọng tâm của hai đối tượng sau đó có thể được sử dụng để tính khoảng cách Euclidean giữa chúng. Khoảng cách Euclidean là khoảng cách đường thẳng giữa hai điểm trên mặt phẳng 2D, được tính bằng cách sử dụng sự khác biệt theo cả hướng ngang và hướng dọc. Điều này cung cấp khoảng cách giữa hai đối tượng tính bằng pixel.

Điều quan trọng cần lưu ý là khoảng cách được tính bằng phương pháp này chỉ là ước tính vì chúng dựa trên các phép đo pixel 2D.

__wf_reserved_inherit
Hình 3. Sử dụng Ultralytics YOLO để phát hiện người và tính toán khoảng cách. 

Tác động của việc ước tính khoảng cách bằng YOLO

Xem xét rằng việc tính toán khoảng cách bằng YOLO11 chỉ là ước tính, bạn có thể tự hỏi: Điều này có thể được sử dụng ở đâu và nó có thể tạo ra sự khác biệt như thế nào? 

Vì các hiệu chuẩn được sử dụng để đưa ra các ước tính khoảng cách này, chúng đủ chính xác để hỗ trợ trong nhiều tình huống thực tế. Ước tính khoảng cách của YOLO11 đặc biệt hữu ích trong môi trường động, chẳng hạn như nhà kho, nơi các đối tượng liên tục di chuyển và cần điều chỉnh theo thời gian thực để mọi thứ vận hành trơn tru.

Một ví dụ thú vị là sử dụng YOLO11 để theo dõi các kiện hàng trên băng chuyền và ước tính khoảng cách giữa chúng trong thời gian thực. Điều này giúp các nhà quản lý kho đảm bảo các kiện hàng được đặt cách nhau đúng cách, ngăn ngừa va chạm và giữ cho mọi thứ hoạt động trơn tru. 

Trong những trường hợp như vậy, khoảng cách chính xác không phải lúc nào cũng cần thiết. Thông thường, một phạm vi hoặc ngưỡng cho khoảng cách tối ưu được đặt, vì vậy ước tính hoạt động tốt cho các loại ứng dụng này.

__wf_reserved_inherit
Hình 4. Phát hiện các gói hàng bằng YOLO11 và tính toán khoảng cách giữa chúng.

Tính toán khoảng cách trong các ứng dụng thị giác máy tính

Nhiều ứng dụng thị giác máy tính có thể hưởng lợi từ việc tính toán khoảng cách giữa các đối tượng bằng YOLO11. Ví dụ: trong phân tích bán lẻ, nó giúp cải thiện quản lý hàng đợi bằng cách theo dõi vị trí của khách hàng theo thời gian thực. Điều này giúp các doanh nghiệp phân bổ nguồn lực tốt hơn, giảm thời gian chờ đợi và tạo ra trải nghiệm mua sắm suôn sẻ hơn. Bằng cách điều chỉnh linh hoạt số lượng nhân viên và quản lý luồng khách hàng, các cửa hàng có thể ngăn ngừa tình trạng quá tải và tối ưu hóa việc sử dụng không gian.

Tương tự, trong quản lý giao thông, ước tính khoảng cách giúp theo dõi khoảng cách giữa các xe và phân tích mô hình giao thông. Điều này có thể được sử dụng để phát hiện các hành vi nguy hiểm, như bám đuôi xe phía trước, và điều chỉnh tín hiệu giao thông để giữ cho giao thông thông suốt. Nó có thể giúp làm cho đường xá an toàn hơn bằng cách xác định các vấn đề tiềm ẩn và cải thiện quản lý giao thông tổng thể trong thời gian thực.

__wf_reserved_inherit
Hình 5. Tính toán khoảng cách hỗ trợ bởi thị giác có thể được sử dụng để theo dõi giao thông.

Một ứng dụng độc đáo khác của công nghệ này xuất hiện trong đại dịch COVID-19 khi nó giúp thúc đẩy giãn cách xã hội. Nó đảm bảo mọi người giữ khoảng cách an toàn ở những nơi công cộng, cửa hàng và bệnh viện, giảm nguy cơ lây lan virus. 

Bằng cách theo dõi khoảng cách trong thời gian thực, cảnh báo có thể được gửi đi khi các cá nhân ở quá gần, giúp các doanh nghiệp và nhà cung cấp dịch vụ chăm sóc sức khỏe dễ dàng ứng phó nhanh chóng và duy trì một môi trường an toàn hơn cho mọi người.

Ưu và nhược điểm của việc tính toán khoảng cách trong thị giác máy tính

Bây giờ chúng ta đã thảo luận về một số ứng dụng của tính toán khoảng cách bằng thị giác máy tính, đây là cái nhìn cận cảnh hơn về những lợi ích liên quan của việc làm như vậy:

  • Tự động hóa: Vision AI có thể tự động hóa các tác vụ tính toán khoảng cách mà nếu không sẽ yêu cầu theo dõi thủ công, giảm lỗi do con người và chi phí nhân công đồng thời tăng năng suất.
  • Tối ưu hóa tài nguyên: Bằng cách biết khoảng cách và độ gần đúng của các đối tượng, các nguồn lực (như nhân viên hoặc máy móc) có thể được tối ưu hóa, giảm lãng phí và cải thiện quy trình làm việc.
  • Độ phức tạp thiết lập tối thiểu: Sau khi thiết lập, các hệ thống tính toán khoảng cách hỗ trợ thị giác máy tính tương đối dễ bảo trì và ít cần sự can thiệp của con người hơn so với các hệ thống khác dựa trên đầu vào thủ công hoặc máy móc phức tạp.

Mặc dù có những ưu điểm này, nhưng cũng có một số hạn chế cần lưu ý khi triển khai các hệ thống như vậy. Dưới đây là một cái nhìn nhanh về các yếu tố chính cần xem xét khi tính toán khoảng cách bằng thị giác máy tính:

  • Độ nhạy với các yếu tố môi trường: Độ chính xác của việc tính toán khoảng cách có thể bị ảnh hưởng bởi điều kiện ánh sáng, bóng đổ, phản xạ hoặc vật cản, dẫn đến các lỗi hoặc sự không nhất quán tiềm ẩn.
  • Các lo ngại về quyền riêng tư (Privacy concerns): Sử dụng thị giác máy tính để theo dõi các đối tượng hoặc người có thể làm dấy lên các vấn đề về quyền riêng tư, đặc biệt là ở những nơi công cộng hoặc môi trường nhạy cảm, nơi có thể liên quan đến dữ liệu cá nhân.
  • Độ phức tạp trong các tình huống đa đối tượng: Trong môi trường có nhiều đối tượng chuyển động, việc tính toán chính xác khoảng cách giữa nhiều đối tượng đồng thời có thể dẫn đến nhầm lẫn, đặc biệt nếu chúng ở gần nhau hoặc giao nhau.

Những điều cần nhớ

Tính toán khoảng cách giữa các đối tượng bằng YOLO11 là một giải pháp đáng tin cậy có thể hỗ trợ việc ra quyết định. Nó đặc biệt hữu ích trong các môi trường động như nhà kho, bán lẻ và quản lý giao thông, nơi việc theo dõi độ gần của đối tượng có thể cải thiện hiệu quả và an toàn. 

YOLO11 giúp tự động hóa các tác vụ mà thông thường đòi hỏi nỗ lực thủ công. Mặc dù có một số thách thức, chẳng hạn như độ nhạy với các yếu tố môi trường và các vấn đề về quyền riêng tư, nhưng những lợi ích như tự động hóa, khả năng mở rộng và tích hợp dễ dàng khiến nó trở nên có tác động. Khi thị giác máy tính tiếp tục được cải thiện, đặc biệt là trong các lĩnh vực như tính toán khoảng cách, có khả năng chúng ta sẽ thấy một sự thay đổi thực sự trong cách máy móc tương tác và hiểu môi trường xung quanh.

Tham gia cộng đồng của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về Vision AI. Nếu bạn quan tâm đến việc tận dụng computer vision, hãy xem các tùy chọn cấp phép của chúng tôi. Tìm hiểu cách computer vision trong lĩnh vực chăm sóc sức khỏe đang cải thiện hiệu quả và xem tác động của AI trong nông nghiệp bằng cách truy cập các trang giải pháp của chúng tôi! 

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard