Hướng dẫn theo dõi các đối tượng chuyển động trong video với các mô hình Ultralytics YOLO
Tìm hiểu cách thức hoạt động của các hệ thống theo dõi computer vision, khám phá các mô hình phổ biến hỗ trợ theo dõi đối tượng như YOLO11 và khám phá các ứng dụng thực tế của chúng.

Các robot có khả năng lắp ráp linh kiện điện tử, hệ thống phát hiện xe chạy quá tốc độ và các giải pháp bán lẻ thông minh theo dõi hành vi mua sắm của khách hàng - tất cả những cải tiến này đều dựa vào computer vision. Đây là một nhánh của trí tuệ nhân tạo (AI) giúp máy móc phân tích và hiểu được hình ảnh và video.
Ví dụ, một robot cần nhận diện và theo dõi các linh kiện khác nhau để lắp ráp chúng chính xác. Tương tự, một hệ thống giao thông có thể sử dụng computer vision để phát hiện xe, đọc biển số và xác định khi nào ai đó đang chạy quá tốc độ. Trong khi đó, tại các cửa hàng, AI thị giác có thể giúp theo dõi những gì khách hàng đang xem hoặc lấy, thậm chí giám sát hàng tồn kho.
Những ứng dụng như vậy được vận hành bởi các model computer vision như Ultralytics YOLO11, hỗ trợ hàng loạt tác vụ thị giác. Nhiều tác vụ tập trung vào việc thu thập thông tin từ một ảnh đơn lẻ, nhưng một tác vụ đặc biệt thú vị, object tracking, có thể được dùng để theo dõi sự di chuyển của các đối tượng qua chuỗi hình ảnh hoặc khung hình video.

Hình 1. Ví dụ về việc phát hiện và theo dõi ô tô.
Trong hướng dẫn này, chúng ta sẽ tìm hiểu kỹ hơn về cách object tracking hoạt động và khám phá các ví dụ thực tế về việc áp dụng công nghệ này. Chúng ta cũng sẽ thảo luận về cách các model AI thị giác như Ultralytics YOLO11 hỗ trợ object tracking. Hãy cùng bắt đầu!
Link to this sectionTìm hiểu sâu hơn về các hệ thống theo dõi bằng computer vision#
Object tracking là một computer vision task được sử dụng để theo dõi sự di chuyển của các đối tượng qua các khung hình video, giúp hệ thống giám sát và hiểu cách mọi thứ thay đổi theo thời gian. Điều này rất giống với cách con người có thể tự nhiên theo dõi một người hoặc đối tượng đang di chuyển bằng mắt, chẳng hạn như khi bạn xem một trận quần vợt và mắt bạn dõi theo quả bóng khi nó di chuyển qua lại trên sân.
Theo cách tương tự, object tracking sử dụng camera và AI để theo dõi chuyển động của quả bóng trong thời gian thực. Công nghệ này có thể mang lại cho khán giả tại nhà sự hiểu biết tốt hơn về diễn biến trận đấu, đặc biệt thông qua các thông tin phân tích như tốc độ, quỹ đạo và vị trí của người chơi.
Mặc dù việc theo dõi bằng mắt thường có vẻ dễ dàng đối với con người, nhưng đối với thị giác máy tính, nó bao gồm một chuỗi các bước được vận hành bởi các model AI thị giác. Dưới đây là phân tích đơn giản về cách object tracking hoạt động:
- Ghi hình video: Camera ghi lại cảnh quay, nắm bắt cách đối tượng di chuyển trong cảnh theo thời gian.
- Phát hiện đối tượng: Các computer vision models được hỗ trợ bởi AI như YOLO11 có thể phân tích từng khung hình để xác định và định vị các đối tượng cụ thể, chẳng hạn như con người, phương tiện hoặc sản phẩm.
- Gán danh tính: Sau khi một đối tượng được phát hiện, các thuật toán theo dõi sẽ gán cho nó một ID duy nhất để theo dõi nó qua nhiều khung hình, đảm bảo hệ thống biết đó là cùng một đối tượng ngay cả khi nó di chuyển.
- Giám sát chuyển động: Hệ thống theo dõi chuyển động theo thời gian và dữ liệu này có thể được sử dụng để thu thập thông tin như tốc độ, hướng đi và các tương tác với các đối tượng khác.
- Tạo thông tin chi tiết: Thông tin này có thể được sử dụng trong thời gian thực để cung cấp phân tích, hỗ trợ ra quyết định hoặc vận hành các lớp phủ hình ảnh - tùy thuộc vào trường hợp sử dụng cụ thể.
Link to this sectionSo sánh object detection và tracking với YOLO#
Một tác vụ computer vision khác được YOLO11 hỗ trợ liên quan chặt chẽ đến object tracking là object detection. Hãy cùng khám phá sự khác biệt giữa hai tác vụ này.
Object detection bao gồm việc xác định và định vị các đối tượng quan tâm trong một hình ảnh hoặc khung hình video duy nhất. Ví dụ, một chiếc xe tự lái sử dụng object detection để nhận diện biển báo dừng hoặc người đi bộ trong một khung hình duy nhất được camera trên xe ghi lại. Nó trả lời câu hỏi: “Cái gì đang ở trong ảnh này và nó ở đâu?”. Tuy nhiên, nó không cung cấp bất kỳ thông tin nào về việc đối tượng đó sẽ đi đâu tiếp theo.
Object tracking phát triển dựa trên object detection bằng cách bổ sung khả năng hiểu về chuyển động theo thời gian. Sự khác biệt chính giữa hai phương pháp này là cách chúng xử lý thời gian và chuyển động. Object detection coi mỗi khung hình là một ảnh chụp độc lập, trong khi object tracking kết nối các điểm giữa các khung hình, sử dụng dữ liệu quá khứ để dự đoán vị trí tương lai của đối tượng.
Bằng cách kết hợp cả hai, chúng ta có thể xây dựng các hệ thống AI thị giác mạnh mẽ có khả năng theo dõi thời gian thực trong các môi trường năng động. Ví dụ, một hệ thống an ninh tự động có thể phát hiện người đi vào không gian và liên tục track their movement qua khung hình.
Link to this sectionTheo dõi thời gian thực sử dụng các model YOLO của Ultralytics#
Bây giờ chúng ta đã nắm được sự khác biệt giữa object detection và tracking, hãy cùng xem cách các model YOLO của Ultralytics, như YOLO11, hỗ trợ object tracking thời gian thực.
Mặc dù bản thân các model YOLO không phải là thuật toán theo dõi, nhưng chúng đóng vai trò thiết yếu bằng cách phát hiện các đối tượng trong từng khung hình video. Sau khi các đối tượng được phát hiện, các thuật toán theo dõi cần được sử dụng để gán ID duy nhất cho chúng, cho phép hệ thống theo dõi chuyển động của chúng từ khung hình này sang khung hình khác.
Để giải quyết nhu cầu này, Ultralytics Python package tích hợp liền mạch object detection với các thuật toán theo dõi phổ biến như BoT-SORT và ByteTrack. Sự tích hợp này cho phép người dùng chạy phát hiện và theo dõi cùng nhau với thiết lập tối thiểu.
Khi sử dụng các model YOLO để thực hiện object tracking, bạn có thể chọn thuật toán theo dõi để áp dụng dựa trên yêu cầu của ứng dụng. Ví dụ, BoT-SORT là một lựa chọn tốt để theo dõi các đối tượng di chuyển khó đoán nhờ sử dụng dự đoán chuyển động và deep learning. Mặt khác, ByteTrack hoạt động đặc biệt hiệu quả trong các môi trường đông đúc, duy trì khả năng theo dõi đáng tin cậy ngay cả khi các đối tượng bị mờ hoặc bị che khuất một phần.

Hình 2. Ultralytics Python package tích hợp liền mạch BoT-SORT và ByteTrack.
Link to this sectionViệc huấn luyện model YOLO tùy chỉnh liên quan thế nào đến object tracking?#
Custom training là quá trình fine-tune một model object detection đã được huấn luyện trước, như YOLO11, trên một dataset cụ thể để nó có thể nhận diện các đối tượng không có trong các dataset tiêu chuẩn. Điều này đặc biệt quan trọng khi hệ thống theo dõi của bạn cần theo dõi các đối tượng tùy chỉnh hoặc không phổ biến.
Các hệ thống theo dõi dựa vào model phát hiện để nhận diện đối tượng trước. Nếu model YOLO không thể phát hiện một mục cụ thể, chẳng hạn như một loại máy móc hoặc loài động vật hoang dã nào đó, thuật toán theo dõi sẽ không thể theo dõi nó.
Đó là lý do tại sao custom training là điều cần thiết: nó đảm bảo rằng model phát hiện có thể xác định chính xác các đối tượng bạn muốn theo dõi.
Cũng cần lưu ý rằng chỉ model phát hiện mới được fine-tune trong quá trình này. Các thuật toán theo dõi, như BoT-SORT hoặc ByteTrack, không được huấn luyện tùy chỉnh - chúng chỉ đơn giản sử dụng đầu ra từ model YOLO để theo dõi các đối tượng đã được phát hiện qua các khung hình.
Link to this sectionCác ứng dụng của object tracking với Ultralytics YOLO#
Bây giờ chúng ta đã hiểu rõ hơn về object tracking là gì và cách nó hoạt động, hãy cùng khám phá một số ứng dụng thực tế nơi công nghệ này đang tạo ra tác động.
Link to this sectionTheo dõi thời gian thực bằng Ultralytics YOLO để ước tính tốc độ#
Các hệ thống speed estimation được kích hoạt bởi computer vision phụ thuộc vào các tác vụ như object detection và tracking. Các hệ thống này được thiết kế để tính toán tốc độ di chuyển của đối tượng - dù đó là phương tiện, người đi xe đạp hay thậm chí là người đi bộ. Thông tin này rất quan trọng cho nhiều ứng dụng, từ quản lý giao thông đến giám sát an toàn và tự động hóa công nghiệp.
Sử dụng một model như Ultralytics YOLO11, các đối tượng có thể được phát hiện và theo dõi qua các khung hình video. Bằng cách phân tích khoảng cách đối tượng di chuyển trong một khoảng thời gian cụ thể, hệ thống có thể ước tính tốc độ của nó.

Hình 3. Sử dụng hỗ trợ của YOLO11 cho object tracking để ước tính tốc độ.
Link to this sectionKhám phá object tracking trong sản xuất#
Các quy trình sản xuất có thể diễn ra nhanh chóng và rất phức tạp, khiến việc theo dõi thủ công từng mặt hàng đang được sản xuất trở nên khó khăn. Object tracking cung cấp giải pháp tốt để tự động hóa việc giám sát sản phẩm khi chúng di chuyển qua từng giai đoạn sản xuất. Nó giúp các nhà máy duy trì mức độ chính xác và hiệu quả cao mà không làm chậm quy trình.
Từ việc đếm sản phẩm trên băng chuyền đến phát hiện lỗi hoặc xác minh quá trình lắp ráp đúng cách, object tracking mang lại khả năng hiển thị và kiểm soát cho các tác vụ vốn tốn thời gian hoặc dễ xảy ra lỗi. Công nghệ này đặc biệt có tác động trong các ngành có lưu lượng cao như food processing, điện tử và đóng gói, nơi tốc độ và độ chính xác là rất quan trọng.

Hình 4. Ví dụ về việc theo dõi và đếm thực phẩm trên dây chuyền lắp ráp bằng YOLO11.
Link to this sectionTổng quan về object tracking trong phân tích bán lẻ#
Vô số khách hàng ra vào các retail stores mỗi ngày, và việc hiểu hành vi của họ là chìa khóa để cải thiện cả trải nghiệm khách hàng và hiệu quả kinh doanh. Object tracking giúp các nhà bán lẻ theo dõi lưu lượng khách, đo lường thời gian dừng lại và phân tích các mô hình di chuyển - tất cả mà không cần các phương pháp xâm nhập hoặc thủ công.
Bằng cách theo dõi các cá nhân khi họ vào, ra và di chuyển khắp cửa hàng, các doanh nghiệp có thể hiểu rõ hơn về giờ cao điểm, các khu vực phổ biến và thậm chí cả độ dài hàng đợi. Những thông tin này có thể thông báo các quyết định về nhân sự, bố trí cửa hàng và vị trí đặt hàng tồn kho, từ đó dẫn đến hoạt động hiệu quả hơn và tăng doanh số.

Hình 5. Sử dụng khả năng theo dõi đối tượng của YOLO11 để giám sát người ra vào cửa hàng.
Link to this sectionƯu điểm và nhược điểm của object tracking#
Từ các cửa hàng bán lẻ đến các sàn nhà máy, object tracking đang được sử dụng trong mọi loại ngành nghề để cải thiện các yếu tố như hiệu quả, an toàn và trải nghiệm tổng thể. Dưới đây là một số lợi ích chính mà object tracking có thể mang lại cho các ngành công nghiệp khác nhau:
- Kích hoạt cảnh báo thời gian thực: Các hệ thống được tích hợp object tracking có thể được cấu hình để tự động kích hoạt cảnh báo khi phát hiện điều bất thường, chẳng hạn như một người đi vào khu vực hạn chế hoặc hàng hóa bị để quá lâu tại một vị trí.
- Tích hợp với các hệ thống khác: Dữ liệu object tracking có thể được kết hợp với các công nghệ khác, như facial recognition, camera nhiệt hoặc hệ thống quản lý hàng tồn kho để có những thông tin chi tiết mạnh mẽ hơn nữa.
- Tiết kiệm chi phí trong dài hạn: Mặc dù việc thiết lập ban đầu có thể cần đầu tư, nhưng việc theo dõi tự động làm giảm nhu cầu lao động thủ công, giảm tỷ lệ sai sót và cắt giảm chi phí vận hành theo thời gian.
Mặc dù những lợi ích này làm nổi bật cách object tracking tác động tích cực đến các trường hợp sử dụng khác nhau, nhưng cũng cần cân nhắc các thách thức liên quan đến việc triển khai. Hãy cùng xem xét kỹ hơn một số hạn chế của object tracking:
-
Khó khăn trong crowded environments: Trong các môi trường bận rộn như buổi hòa nhạc, trung tâm mua sắm hoặc đường phố, các hệ thống theo dõi có thể gặp khó khăn khi phân biệt giữa người hoặc đối tượng ở gần nhau, dẫn đến nhầm lẫn hoặc kết quả không chính xác.
-
Nhạy cảm với các điều kiện môi trường: Ánh sáng yếu, sương mù, chuyển động nhanh hoặc rung máy có thể ảnh hưởng đến khả năng theo dõi đối tượng chính xác của hệ thống, đặc biệt là trong môi trường ngoài trời hoặc không kiểm soát.
-
Quyền riêng tư và các vấn đề pháp lý: Việc xử lý không đúng cách dữ liệu cá nhân, thiếu sự đồng ý của người dùng hoặc giám sát ở không gian công cộng có thể gây ra các vấn đề đạo đức và dẫn đến việc không tuân thủ luật quyền riêng tư.
Link to this sectionCác điểm chính cần lưu ý#
Object tracking là một tác vụ computer vision cho phép máy móc theo dõi sự di chuyển của các đối tượng theo thời gian. Nó được sử dụng trong hàng loạt kịch bản thực tế - từ ước tính tốc độ phương tiện và đếm sản phẩm trên dây chuyền lắp ráp đến phân tích chuyển động của cầu thủ trong thể thao.
Với các model AI thị giác như YOLO11 và các thuật toán theo dõi như BoT-SORT và ByteTrack, object tracking đã trở nên nhanh hơn, thông minh hơn và dễ tiếp cận hơn trên nhiều ngành công nghiệp. Khi công nghệ object tracking phát triển, nó đang giúp các hệ thống trở nên thông minh hơn, hiệu quả hơn và phản ứng nhanh hơn, qua từng khung hình.
Bạn muốn tìm hiểu thêm về computer vision và AI? Hãy khám phá kho lưu trữ GitHub của chúng tôi, kết nối với cộng đồng của chúng tôi và xem qua các tùy chọn cấp phép của chúng tôi để khởi động dự án computer vision của bạn. Nếu bạn đang khám phá các đổi mới như AI trong sản xuất và computer vision trong ngành công nghiệp ô tô, hãy truy cập các trang giải pháp của chúng tôi để khám phá thêm.






