Theo dõi nhiều đối tượng (MOT)
Khám phá Theo dõi nhiều đối tượng (MOT): track và xác định lại các đối tượng trên các khung hình video với YOLO11 Bộ lọc Kalman, so khớp giao diện và liên kết dữ liệu hiện đại.
Theo dõi Đa Đối tượng (MOT) là một nhiệm vụ then chốt trong thị giác máy tính , liên quan đến việc phát hiện nhiều thực thể riêng biệt trong một luồng video và duy trì danh tính duy nhất của chúng qua các khung hình liên tiếp. Trong khi phát hiện đối tượng tiêu chuẩn xác định những gì hiện diện trong một hình ảnh tĩnh duy nhất, MOT giới thiệu một chiều thời gian, trả lời câu hỏi về vị trí di chuyển của các đối tượng cụ thể theo thời gian. Bằng cách gán một số nhận dạng (ID) cố định cho mỗi trường hợp được phát hiện, MOT cho phép các hệ thống phân tích quỹ đạo, hiểu các tương tác và đếm các mục duy nhất, khiến nó trở thành một thành phần cơ bản của các ứng dụng hiểu video hiện đại.
Cơ chế của hệ thống theo dõi
Hầu hết các hệ thống MOT hiện đại, bao gồm cả những hệ thống được hỗ trợ bởi YOLO11 , đều hoạt động theo mô hình "theo dõi bằng phát hiện". Quy trình làm việc này chia quy trình thành các giai đoạn riêng biệt, lặp lại cho từng khung hình video để đảm bảo độ chính xác và tính liên tục cao.
-
Phát hiện: Hệ thống đầu tiên sử dụng mô hình hiệu suất cao để xác định vị trí các đối tượng quan tâm, tạo ra các hộp giới hạn và điểm tin cậy .
-
Dự đoán chuyển động: Để liên kết các phát hiện trên nhiều khung hình, các thuật toán như Bộ lọc Kalman ước tính vị trí tương lai của một vật thể dựa trên vận tốc và vị trí trước đó của nó. Điều này tạo ra một ước tính trạng thái giúp thu hẹp phạm vi tìm kiếm cho khung hình tiếp theo.
-
Liên kết dữ liệu: Hệ thống so khớp các phát hiện mới với các đường dẫn hiện có. Các kỹ thuật tối ưu hóa như thuật toán Hungary giải quyết vấn đề gán này bằng cách giảm thiểu chi phí so khớp, thường tính toán Giao điểm trên Hợp nhất ( IoU ) giữa các đường dẫn dự đoán. track và phát hiện mới.
-
Nhận dạng lại (ReID): Trong trường hợp các đối tượng giao nhau hoặc bị ẩn tạm thời—một hiện tượng được gọi là che khuất—các trình theo dõi nâng cao sử dụng nhúng trực quan để nhận dạng đối tượng khi nó xuất hiện trở lại, ngăn chặn việc chuyển đổi ID.
MOT so với các thuật ngữ liên quan đến thị giác máy tính
Điều quan trọng là phải phân biệt MOT với các khái niệm tương tự để lựa chọn công nghệ phù hợp cho trường hợp sử dụng cụ thể.
-
so với Phát hiện Đối tượng: Phát hiện xử lý mỗi khung hình như một sự kiện độc lập. Nếu một phương tiện xuất hiện trong hai khung hình liên tiếp, máy dò sẽ thấy hai trường hợp riêng biệt của một "chiếc xe". Ngược lại, theo dõi đối tượng liên kết các trường hợp này, nhận dạng chúng là cùng một phương tiện di chuyển theo thời gian.
-
so với Theo dõi Đối tượng Đơn (SOT): SOT tập trung vào việc theo dõi một mục tiêu cụ thể do người dùng khởi tạo, thường bỏ qua mọi hoạt động khác. MOT phức tạp hơn vì nó phải tự động detect , track và quản lý số lượng đối tượng không xác định và không ổn định ra vào bối cảnh, đòi hỏi logic quản lý bộ nhớ mạnh mẽ.
Các Ứng dụng Thực tế
Khả năng để track nhiều đối tượng cùng lúc thúc đẩy sự đổi mới trong nhiều ngành công nghiệp khác nhau, chuyển đổi dữ liệu video thô thành thông tin chi tiết về mô hình dự đoán có thể thực hiện được.
-
Giao thông Thông minh: Trong lĩnh vực AI trong ô tô , MOT rất quan trọng đối với việc lái xe tự động và giám sát giao thông. Nó cho phép các hệ thống ước tính tốc độ bằng cách tính toán quãng đường xe di chuyển theo thời gian và giúp dự đoán các vụ va chạm tiềm ẩn bằng cách theo dõi quỹ đạo của người đi bộ và người đi xe đạp.
-
Phân tích bán lẻ: Các cửa hàng truyền thống tận dụng AI trong bán lẻ để hiểu hành vi khách hàng. Bằng cách áp dụng MOT để đếm chính xác các đối tượng , các nhà bán lẻ có thể đo lường lưu lượng khách hàng, phân tích thời gian dừng chân tại các lối đi cụ thể và tối ưu hóa việc quản lý hàng đợi để cải thiện trải nghiệm mua sắm.
-
Phân tích thể thao: Huấn luyện viên và nhà phân tích sử dụng MOT để track cầu thủ và bóng trong suốt trận đấu. Dữ liệu này hỗ trợ phân tích ước tính tư thế nâng cao, giúp các đội hiểu rõ đội hình, mức độ mệt mỏi của cầu thủ và diễn biến trận đấu trong các tình huống suy luận thời gian thực .
Triển khai theo dõi với Python
Các ultralytics gói đơn giản hóa sự phức tạp của MOT bằng cách tích hợp các trình theo dõi mạnh mẽ như
BoT-SORT và
ByteTrack trực tiếp vào đường ống dự đoán. Các trình theo dõi này có thể được hoán đổi dễ dàng thông qua các đối số.
Ví dụ sau đây minh họa cách tải một dữ liệu đã được đào tạo trước YOLO11 mô hình hóa và áp dụng theo dõi vào một tệp video:
from ultralytics import YOLO
# Load an official YOLO11 model pretrained on COCO
model = YOLO("yolo11n.pt")
# Perform tracking on a video file
# 'persist=True' ensures IDs are maintained between frames
# 'tracker' allows selection of algorithms like 'bytetrack.yaml' or 'botsort.yaml'
results = model.track(source="traffic_analysis.mp4", persist=True, tracker="bytetrack.yaml")
# Visualize the results
for result in results:
result.show()
Mã này xử lý toàn bộ quy trình, từ phát hiện đến gán ID, cho phép các nhà phát triển tập trung vào logic cấp cao như đếm vùng hoặc phân tích hành vi. Để tùy chỉnh thêm, vui lòng tham khảo tài liệu về chế độ theo dõi .