Theo dõi nhiều đối tượng (MOT)
Khám phá Theo dõi nhiều đối tượng (MOT): theo dõi và xác định lại các đối tượng trên các khung hình video bằng YOLO11, Bộ lọc Kalman, so khớp ngoại hình và liên kết dữ liệu hiện đại.
Theo dõi Đa Đối tượng (MOT) là một nhiệm vụ cơ bản trong thị giác máy tính (CV), bao gồm việc phát hiện nhiều đối tượng trong một video và duy trì danh tính riêng của chúng qua các khung hình liên tiếp. Không giống như phát hiện đối tượng , vốn định vị và phân loại các đối tượng trong một hình ảnh duy nhất, MOT bổ sung thêm một chiều thời gian. Nó không chỉ trả lời câu hỏi "Những đối tượng nào trong khung hình?" mà còn "Mỗi đối tượng cụ thể đang di chuyển đến đâu?". Bằng cách gán một ID cố định cho mỗi đối tượng, MOT cho phép phân tích chuyển động, hành vi và tương tác theo thời gian, điều này rất cần thiết để hiểu các cảnh động.
Cách thức hoạt động của tính năng theo dõi nhiều đối tượng
Quy trình MOT thường tuân theo mô hình theo dõi bằng phát hiện. Đầu tiên, một bộ phát hiện đối tượng, chẳng hạn như YOLO11 , được sử dụng để nhận dạng tất cả các đối tượng trong mỗi khung hình của video. Mỗi đối tượng được phát hiện sau đó được gán một ID theo dõi duy nhất. Trong các khung hình tiếp theo, một thuật toán theo dõi sẽ dự đoán vị trí mới của các đối tượng này và liên kết chúng với các đối tượng mới được phát hiện. Sự liên kết này là một bước quan trọng và dựa trên một số kỹ thuật:
- Dự đoán chuyển động : Các thuật toán như Bộ lọc Kalman (KF) ước tính vị trí tương lai của một vật thể dựa trên chuyển động trước đó của nó. Điều này giúp thu hẹp phạm vi tìm kiếm vật thể trong khung hình tiếp theo.
- So khớp ngoại hình : Để nhận dạng lại một đối tượng sau khi nó bị che khuất hoặc thay đổi diện mạo, hệ thống thường trích xuất các đặc điểm riêng biệt. Các đặc điểm này có thể bao gồm từ biểu đồ màu đơn giản đến các nhúng phức tạp dựa trên học sâu.
- Liên kết Dữ liệu : Thành phần này khớp các đường theo dõi đối tượng hiện có với các phát hiện mới. Các thuật toán tinh vi như thuật toán Hungary hoặc các phương pháp được sử dụng bởi các trình theo dõi hiện đại như ByteTrack và BoT-SORT được sử dụng để xử lý các phép gán này, đảm bảo tính liên tục của đường theo dõi ngay cả trong các cảnh đông đúc.
Ultralytics cung cấp khả năng tích hợp liền mạch các thuật toán theo dõi này , cho phép người dùng dễ dàng triển khai tính năng theo dõi nhiều đối tượng mạnh mẽ với các bộ dò hiệu suất cao.
Theo dõi nhiều đối tượng so với Phát hiện đối tượng
Mặc dù có liên quan chặt chẽ, MOT và phát hiện đối tượng phục vụ các mục đích riêng biệt. Phát hiện đối tượng là một phân tích tĩnh, theo từng khung hình, tạo ra một tập hợp các hộp giới hạn và nhãn lớp. Ngược lại, MOT là một quy trình động, liên kết các phát hiện này theo thời gian, tạo ra một "câu chuyện" liên tục cho mỗi đối tượng. Bạn có thể hình dung phát hiện đối tượng như việc chụp một loạt ảnh chụp nhanh, trong khi theo dõi đa đối tượng ghép các ảnh chụp nhanh đó lại với nhau để tạo thành một đoạn phim, hé lộ cốt truyện về cách các đối tượng di chuyển và tương tác.
Các Ứng dụng Thực tế
MOT là công nghệ mang tính đột phá với nhiều ứng dụng thực tế trong nhiều ngành công nghiệp khác nhau.
- Xe tự hành : Đối với xe tự lái , MOT rất quan trọng đối với an toàn. Nó cho phép xe theo dõi quỹ đạo của các xe khác, người đi bộ và người đi xe đạp, dự đoán chuyển động của họ để đưa ra quyết định sáng suốt và tránh va chạm. Việc theo dõi liên tục này mang lại khả năng hiểu biết sâu sắc hơn về môi trường xung quanh so với chỉ phát hiện từng khung hình đơn lẻ.
- Phân tích Bán lẻ và Không gian Công cộng : Trong bán lẻ, MOT được sử dụng để phân tích hành vi khách hàng bằng cách theo dõi lưu lượng khách bộ hành và thời gian dừng chân. Điều này giúp tối ưu hóa bố cục cửa hàng và quản lý hàng đợi hiệu quả. Tại các không gian công cộng, nó có thể được sử dụng để quản lý đám đông và đảm bảo an ninh, chẳng hạn như bằng cách thiết lập hệ thống báo động an ninh kích hoạt khi có người bị theo dõi khi vào khu vực hạn chế.
- Phân tích Thể thao : Huấn luyện viên và nhà phân tích sử dụng MOT để theo dõi chuyển động của cầu thủ, phân tích đội hình và đánh giá các chỉ số hiệu suất như tốc độ và khoảng cách di chuyển. Điều này có thể được kết hợp với ước tính tư thế để phân tích chi tiết hơn về kỹ thuật thể thao và chiến lược thi đấu.
- Tự động hóa công nghiệp : Tại nhà máy, MOT có thể được sử dụng để theo dõi các bộ phận trên băng chuyền để đếm số lượng và kiểm soát chất lượng, đảm bảo mỗi sản phẩm được xử lý chính xác. Đây là một thành phần quan trọng của AI trong sản xuất .