Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Hướng dẫn theo dõi các đối tượng chuyển động trong video bằng các mô hình Ultralytics YOLO

Abirami Vina

5 phút đọc

Ngày 15 tháng 4 năm 2025

Tìm hiểu cách thức hoạt động của hệ thống theo dõi bằng thị giác máy tính, khám phá các mô hình phổ biến hỗ trợ theo dõi đối tượng như YOLO11 và khám phá các ứng dụng thực tế của chúng.

Robot có thể lắp ráp các bộ phận điện, hệ thống bắt xe chạy quá tốc độ và các giải pháp bán lẻ thông minh theo dõi cách khách hàng mua sắm - tất cả những đổi mới này đều dựa vào thị giác máy tính. Đây là một nhánh của trí tuệ nhân tạo (AI) giúp máy móc phân tích và hiểu hình ảnh và video.

Ví dụ: một robot cần nhận dạng và tuân theo các bộ phận khác nhau để lắp ráp chúng một cách chính xác. Tương tự, một hệ thống giao thông có thể sử dụng thị giác máy tính để phát hiện ô tô, đọc biển số xe và tìm ra khi nào ai đó đang chạy quá tốc độ. Trong khi đó, trong các cửa hàng, Vision AI có thể giúp theo dõi những gì khách hàng đang xem hoặc nhặt và thậm chí có thể theo dõi hàng tồn kho.

Các ứng dụng như vậy được hỗ trợ bởi các mô hình thị giác máy tính như Ultralytics YOLO11, hỗ trợ nhiều tác vụ trực quan. Nhiều tác vụ trong số này tập trung vào việc thu thập thông tin chi tiết từ một hình ảnh duy nhất, nhưng một tác vụ đặc biệt thú vị, theo dõi đối tượng, có thể được sử dụng để theo dõi chuyển động của các đối tượng trên một loạt hình ảnh hoặc khung hình video.

__wf_reserved_inherit
Hình 1. Một ví dụ về phát hiện và theo dõi xe hơi.

Trong hướng dẫn này, chúng ta sẽ xem xét kỹ hơn về cách object tracking (theo dõi đối tượng) hoạt động và khám phá các ví dụ thực tế về cách nó được sử dụng. Chúng ta cũng sẽ thảo luận về cách các mô hình Vision AI như Ultralytics YOLO11 hỗ trợ object tracking. Hãy bắt đầu nào!

Xem xét kỹ hơn về hệ thống theo dõi bằng thị giác máy tính

Theo dõi đối tượng là một tác vụ thị giác máy tính được sử dụng để theo dõi chuyển động của các đối tượng trên các khung hình video, giúp các hệ thống giám sát và hiểu cách mọi thứ thay đổi theo thời gian. Điều này rất giống với cách con người có thể tự nhiên theo dõi một người hoặc vật thể đang di chuyển bằng mắt, chẳng hạn như khi bạn đang xem một trận đấu quần vợt và mắt bạn theo dõi quả bóng khi nó di chuyển qua lại trên sân.

Tương tự, theo dõi đối tượng liên quan đến việc sử dụng camera và AI để theo dõi chuyển động của quả bóng trong thời gian thực. Công nghệ này có thể cung cấp cho người xem tại nhà sự hiểu biết tốt hơn về dòng chảy của trò chơi, đặc biệt thông qua các phân tích như tốc độ, quỹ đạo và vị trí của người chơi.

Mặc dù loại theo dõi trực quan này có vẻ dễ dàng đối với con người, nhưng khi nói đến thị giác máy tính, nó liên quan đến một loạt các bước được hỗ trợ bởi các mô hình Vision AI. Dưới đây là một phân tích đơn giản về cách theo dõi đối tượng hoạt động: 

  • Quay video: Camera ghi lại cảnh quay video, ghi lại cách các đối tượng di chuyển qua một cảnh theo thời gian.
  • Phát hiện đối tượng: Các mô hình thị giác máy tính được hỗ trợ bởi AI như YOLO11 có thể phân tích từng khung hình để xác định và định vị các đối tượng cụ thể, chẳng hạn như người, phương tiện hoặc sản phẩm.
  • Gán định danh: Sau khi một đối tượng được phát hiện, các thuật toán theo dõi sẽ gán cho nó một ID duy nhất để theo dõi nó trên nhiều khung hình, đảm bảo hệ thống biết đó là cùng một đối tượng ngay cả khi nó di chuyển.
  • Giám sát chuyển động: Hệ thống theo dõi chuyển động theo thời gian và dữ liệu này có thể được sử dụng để thu thập dữ liệu như tốc độ, hướng và tương tác với các đối tượng khác.
  • Tạo ra thông tin chi tiết: Thông tin này có thể được sử dụng trong thời gian thực để cung cấp phân tích, hỗ trợ ra quyết định hoặc cung cấp các lớp phủ trực quan - tùy thuộc vào trường hợp sử dụng cụ thể.

So sánh phát hiện và theo dõi đối tượng với YOLO

Một tác vụ computer vision khác được YOLO11 hỗ trợ và có liên quan chặt chẽ đến object tracking là object detection. Hãy cùng khám phá sự khác biệt giữa hai tác vụ này. 

Phát hiện đối tượng liên quan đến việc xác định và định vị các đối tượng quan tâm trong một hình ảnh hoặc khung hình video. Ví dụ: một chiếc xe tự lái sử dụng tính năng phát hiện đối tượng để nhận biết biển báo dừng hoặc người đi bộ trong một khung hình duy nhất được chụp bởi camera trên xe. Nó trả lời câu hỏi: "Trong hình ảnh này có gì và nó ở đâu?". Tuy nhiên, nó không cung cấp bất kỳ thông tin nào về vị trí tiếp theo của đối tượng.

Theo dõi đối tượng được xây dựng dựa trên phát hiện đối tượng bằng cách thêm khả năng hiểu chuyển động theo thời gian. Sự khác biệt chính giữa hai kỹ thuật này là cách chúng xử lý thời gian và chuyển động. Phát hiện đối tượng xem mỗi khung hình là một ảnh chụp nhanh độc lập, trong khi theo dõi đối tượng kết nối các điểm giữa các khung hình, sử dụng dữ liệu trong quá khứ để dự đoán vị trí tương lai của một đối tượng.

Bằng cách kết hợp cả hai, chúng ta có thể xây dựng các hệ thống Vision AI mạnh mẽ có khả năng theo dõi theo thời gian thực trong môi trường động. Ví dụ: một hệ thống an ninh tự động có thể phát hiện người đi vào một không gian và liên tục theo dõi chuyển động của họ trong khung hình.

Theo dõi theo thời gian thực bằng các mô hình Ultralytics YOLO

Sau khi đã đề cập đến sự khác biệt giữa phát hiện và theo dõi đối tượng, hãy cùng xem xét cách các mô hình Ultralytics YOLO, như YOLO11, hỗ trợ theo dõi đối tượng theo thời gian thực.

Mặc dù bản thân các mô hình YOLO không phải là thuật toán theo dõi, nhưng chúng đóng một vai trò thiết yếu bằng cách phát hiện các đối tượng trong mỗi khung hình video. Sau khi các đối tượng được phát hiện, cần có các thuật toán theo dõi để gán ID duy nhất cho chúng, cho phép hệ thống theo dõi chuyển động của chúng từ khung hình này sang khung hình khác. 

Để đáp ứng nhu cầu này, gói Ultralytics Python tích hợp liền mạch tính năng phát hiện đối tượng với các thuật toán theo dõi phổ biến như BoT-SORT và ByteTrack. Sự tích hợp này cho phép người dùng chạy đồng thời phát hiện và theo dõi với thiết lập tối thiểu.

Khi sử dụng các mô hình YOLO để theo dõi đối tượng, bạn có thể chọn thuật toán theo dõi nào sẽ áp dụng dựa trên các yêu cầu của ứng dụng. Ví dụ: BoT-SORT là một lựa chọn tốt để theo dõi các đối tượng di chuyển khó đoán, nhờ vào việc sử dụng dự đoán chuyển động và học sâu. Mặt khác, ByteTrack hoạt động đặc biệt tốt trong các cảnh đông đúc, duy trì khả năng theo dõi đáng tin cậy ngay cả khi các đối tượng bị mờ hoặc bị che khuất một phần.

__wf_reserved_inherit
Hình 2.  Gói Ultralytics Python tích hợp liền mạch BoT-SORT và ByteTrack.

Huấn luyện mô hình YOLO tùy chỉnh liên quan đến theo dõi đối tượng như thế nào?

Huấn luyện tùy chỉnh (Custom training) là quá trình tinh chỉnh mô hình nhận diện đối tượng (object detection) đã được huấn luyện trước, như YOLO11, trên một bộ dữ liệu cụ thể để nó có thể nhận dạng các đối tượng không có trong bộ dữ liệu tiêu chuẩn. Điều này đặc biệt quan trọng khi hệ thống theo dõi của bạn cần theo dõi các đối tượng tùy chỉnh hoặc không phổ biến.

Các hệ thống theo dõi dựa vào mô hình phát hiện để nhận diện đối tượng trước tiên. Nếu mô hình YOLO không thể phát hiện một vật thể cụ thể, chẳng hạn như một loại máy móc hoặc loài động vật hoang dã cụ thể, thì thuật toán theo dõi sẽ không thể theo dõi nó.

Đó là lý do tại sao huấn luyện tùy chỉnh là rất cần thiết: nó đảm bảo rằng mô hình phát hiện có thể xác định chính xác các đối tượng bạn muốn theo dõi.

Điều quan trọng cần lưu ý là chỉ có mô hình phát hiện (detection model) được tinh chỉnh (fine-tune) trong quá trình này. Các thuật toán theo dõi (tracking algorithms), chẳng hạn như BoT-SORT hoặc ByteTrack, không được huấn luyện tùy chỉnh - chúng chỉ đơn giản sử dụng đầu ra từ mô hình YOLO để theo dõi các đối tượng được phát hiện trên các khung hình.

Ứng dụng của theo dõi đối tượng với Ultralytics YOLO

Bây giờ chúng ta đã hiểu rõ hơn về theo dõi đối tượng là gì và cách nó hoạt động, hãy khám phá một số ứng dụng thực tế nơi công nghệ này đang tạo ra tác động.

Theo dõi theo thời gian thực bằng Ultralytics YOLO để ước tính tốc độ

Hệ thống ước tính tốc độ được hỗ trợ bởi thị giác máy tính phụ thuộc vào các tác vụ như phát hiện và theo dõi đối tượng. Các hệ thống này được thiết kế để tính toán tốc độ di chuyển của một đối tượng - cho dù đó là xe cộ, người đi xe đạp hay thậm chí là một người. Thông tin này rất quan trọng đối với nhiều ứng dụng, từ quản lý giao thông đến giám sát an toàn và tự động hóa công nghiệp.

Sử dụng một mô hình như Ultralytics YOLO11, các đối tượng có thể được phát hiện và theo dõi trên các khung hình video. Bằng cách phân tích quãng đường mà một đối tượng di chuyển trong một khoảng thời gian cụ thể, hệ thống có thể ước tính tốc độ của nó. 

__wf_reserved_inherit
Hình 3. Sử dụng khả năng hỗ trợ theo dõi đối tượng của YOLO11 để ước tính tốc độ.

Khám phá theo dõi đối tượng trong sản xuất

Các quy trình sản xuất có thể diễn ra nhanh chóng và rất phức tạp, gây khó khăn cho việc theo dõi thủ công mọi mặt hàng được sản xuất. Theo dõi đối tượng cung cấp một giải pháp tốt để tự động hóa việc giám sát các sản phẩm khi chúng di chuyển qua từng giai đoạn sản xuất. Nó có thể giúp các nhà máy duy trì mức độ chính xác và hiệu quả cao mà không làm chậm quá trình.

Từ việc đếm sản phẩm trên băng chuyền đến phát hiện các khuyết tật hoặc xác minh việc lắp ráp đúng cách, theo dõi đối tượng mang lại khả năng hiển thị và kiểm soát các tác vụ mà nếu không sẽ tốn thời gian hoặc dễ xảy ra lỗi. Công nghệ này đặc biệt có tác động lớn trong các ngành công nghiệp có khối lượng lớn như chế biến thực phẩm, điện tử và đóng gói, nơi tốc độ và độ chính xác là rất quan trọng.

__wf_reserved_inherit
Hình 4. Một ví dụ về theo dõi và đếm sản phẩm thực phẩm trên dây chuyền lắp ráp bằng YOLO11.

Tổng quan về theo dõi đối tượng trong phân tích bán lẻ

Vô số khách hàng ra vào các cửa hàng bán lẻ mỗi ngày và việc hiểu hành vi của họ là chìa khóa để cải thiện cả trải nghiệm của khách hàng và hiệu quả kinh doanh. Theo dõi đối tượng giúp các nhà bán lẻ có thể theo dõi lưu lượng người đi bộ, đo thời gian dừng lại và phân tích các kiểu di chuyển - tất cả mà không cần các phương pháp xâm lấn hoặc thủ công.

Bằng cách theo dõi các cá nhân khi họ vào, ra và di chuyển khắp cửa hàng, các doanh nghiệp có thể hiểu rõ hơn về giờ cao điểm, các khu vực phổ biến và thậm chí cả độ dài hàng đợi. Những hiểu biết này có thể cung cấp thông tin cho các quyết định về nhân sự, bố trí cửa hàng và vị trí hàng tồn kho, cuối cùng dẫn đến hoạt động hiệu quả hơn và tăng doanh số bán hàng.

__wf_reserved_inherit
Hình 5. Sử dụng khả năng theo dõi đối tượng của YOLO11 để giám sát người ra vào cửa hàng.

Ưu và nhược điểm của theo dõi đối tượng

Từ các cửa hàng bán lẻ đến sàn nhà máy, tính năng theo dõi đối tượng (object tracking) đang được sử dụng trong tất cả các loại ngành công nghiệp để cải thiện các yếu tố như hiệu quả, an toàn và trải nghiệm tổng thể. Dưới đây là một số lợi ích chính mà tính năng theo dõi đối tượng có thể mang lại cho các ngành công nghiệp khác nhau:

  • Cho phép cảnh báo theo thời gian thực: Các hệ thống được tích hợp với tính năng theo dõi đối tượng có thể được định cấu hình để tự động kích hoạt cảnh báo khi phát hiện thấy điều gì đó bất thường, chẳng hạn như một người đi vào khu vực hạn chế hoặc một kiện hàng bị bỏ lại quá lâu ở một nơi.
  • Tích hợp với các hệ thống khác: Dữ liệu theo dõi đối tượng có thể được kết hợp với các công nghệ khác, như nhận dạng khuôn mặt, camera nhiệt hoặc hệ thống kiểm kê, để có được những hiểu biết sâu sắc hơn nữa.
  • Hiệu quả về chi phí trong thời gian dài: Mặc dù thiết lập ban đầu có thể yêu cầu đầu tư, nhưng theo dõi tự động giúp giảm nhu cầu về lao động thủ công, giảm tỷ lệ lỗi và cắt giảm chi phí vận hành theo thời gian.

Mặc dù những lợi ích này làm nổi bật cách theo dõi đối tượng tác động tích cực đến các trường hợp sử dụng khác nhau, điều quan trọng nữa là phải xem xét những thách thức liên quan đến việc triển khai nó. Hãy xem xét kỹ hơn một số hạn chế của theo dõi đối tượng:

  • Khó khăn trong môi trường đông đúc: Trong các môi trường bận rộn như buổi hòa nhạc, trung tâm mua sắm hoặc đường phố thành phố, các hệ thống theo dõi có thể gặp khó khăn trong việc phân biệt giữa những người hoặc vật thể ở gần nhau, dẫn đến nhầm lẫn hoặc kết quả không chính xác.
  • Dễ bị ảnh hưởng bởi các điều kiện môi trường: Ánh sáng kém, sương mù, chuyển động nhanh hoặc rung máy ảnh có thể ảnh hưởng đến khả năng theo dõi đối tượng của hệ thống một cách chính xác, đặc biệt là trong môi trường ngoài trời hoặc không được kiểm soát.
  • Các vấn đề về quyền riêng tư và pháp lý: Việc xử lý không đúng cách dữ liệu cá nhân, thiếu sự đồng ý của người dùng hoặc giám sát ở những nơi công cộng có thể làm nảy sinh các vấn đề đạo đức và dẫn đến việc không tuân thủ luật bảo mật.

Những điều cần nhớ

Theo dõi đối tượng là một tác vụ thị giác máy tính cho phép máy móc theo dõi chuyển động của các đối tượng theo thời gian. Nó được sử dụng trong một loạt các tình huống thực tế - từ ước tính tốc độ xe và đếm sản phẩm trên dây chuyền lắp ráp đến phân tích chuyển động của người chơi trong thể thao.

Với các mô hình Vision AI như YOLO11 và các thuật toán theo dõi như BoT-SORT và ByteTrack, việc theo dõi đối tượng đã trở nên nhanh hơn, thông minh hơn và dễ tiếp cận hơn trong các ngành công nghiệp khác nhau. Khi công nghệ theo dõi đối tượng phát triển, nó đang giúp các hệ thống trở nên thông minh hơn, hiệu quả hơn và phản hồi nhanh hơn, từng khung hình một.

Bạn muốn tìm hiểu thêm về thị giác máy tính và AI? Khám phá kho lưu trữ GitHub của chúng tôi, kết nối với cộng đồng của chúng tôi và xem các tùy chọn cấp phép của chúng tôi để khởi động dự án thị giác máy tính của bạn. Nếu bạn đang khám phá những đổi mới như AI trong sản xuấtthị giác máy tính trong ngành công nghiệp ô tô, hãy truy cập các trang giải pháp của chúng tôi để khám phá thêm. 

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard