Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Theo dõi nhiều đối tượng (MOT)

Khám phá Theo dõi nhiều đối tượng (MOT): track và xác định lại các đối tượng trên các khung hình video với YOLO11 Bộ lọc Kalman, so khớp giao diện và liên kết dữ liệu hiện đại.

Theo dõi đa đối tượng (MOT) là một khả năng tiên tiến trong thị giác máy tính (CV) cho phép các hệ thống thực hiện các thao tác sau: detect MOT (Multiple Object Techniques) cho phép xác định và theo dõi nhiều thực thể riêng biệt trong một chuỗi khung hình video. Không giống như phát hiện đối tượng tiêu chuẩn, vốn coi mỗi khung hình là một sự kiện riêng lẻ, MOT đưa thêm chiều thời gian vào trí tuệ nhân tạo (AI) . Bằng cách gán một số nhận dạng (ID) cố định cho mỗi thực thể được phát hiện—chẳng hạn như một chiếc xe cụ thể trong giao thông hoặc một cầu thủ trên sân thể thao—MOT cho phép các thuật toán duy trì danh tính của các đối tượng khi chúng di chuyển, tương tác và thậm chí tạm thời biến mất sau các vật cản. Tính liên tục này là nền tảng của việc hiểu video và phân tích hành vi hiện đại.

Cơ chế của hệ thống theo dõi

Hầu hết các hệ thống MOT hiện đại, bao gồm cả những hệ thống sử dụng chip YOLO26 tiên tiến, hoạt động theo mô hình "theo dõi bằng phát hiện". Quy trình này dựa trên chu trình phát hiện và liên kết để đảm bảo độ chính xác cao và giảm thiểu việc chuyển đổi ID.

  1. Phát hiện: Trong mỗi khung hình, một mô hình tốc độ cao như YOLO26 hoặc thế hệ trước YOLO11 sẽ quét toàn cảnh để định vị các đối tượng, tạo ra các hộp giới hạn và xác suất phân loại.
  2. Dự đoán chuyển động: Để dự đoán vị trí di chuyển tiếp theo của một vật thể, các thuật toán sử dụng các bộ ước lượng toán học như bộ lọc Kalman . Điều này tạo ra một ước lượng trạng thái dựa trên vận tốc và quỹ đạo, thu hẹp khu vực tìm kiếm cho khung hình tiếp theo.
  3. Liên kết dữ liệu: Hệ thống đối sánh các phát hiện mới với các đường đi hiện có. Các phương pháp tối ưu hóa như thuật toán Hungarian giải quyết vấn đề gán này bằng cách giảm thiểu "chi phí" đối sánh, thường sử dụng Intersection over Union ( IoU ) để đo lường sự chồng chéo không gian.
  4. Nhận dạng lại (Re-Identification - ReID): Khi xảy ra các vật cản thị giác — được gọi là hiện tượng che khuất — các thuật toán theo dõi tiên tiến sử dụng các mã nhúng hình ảnh để nhận dạng đối tượng khi nó xuất hiện trở lại, giữ nguyên ID ban đầu của nó thay vì coi nó như một thực thể mới.

MOT so với các khái niệm liên quan

Hiểu rõ sự khác biệt giữa MOT và các thuật ngữ học máy (ML) tương tự là rất quan trọng để lựa chọn công cụ phù hợp.

  • So với Phát hiện đối tượng: Phát hiện trả lời câu hỏi "cái gì và ở đâu" trong một hình ảnh tĩnh. Nếu một người xuất hiện trong Khung hình 1 và Khung hình 2, bộ phát hiện sẽ nhìn thấy hai người riêng biệt. MOT liên kết chúng lại, hiểu rằng đó là cùng một người đang di chuyển theo thời gian.
  • So với Theo dõi Đối tượng Đơn lẻ (SOT): SOT tập trung vào việc theo dõi một mục tiêu cụ thể, thường được người dùng khởi tạo thủ công, và theo dõi mục tiêu đó bất kể các yếu tố gây xao nhãng khác. MOT phức tạp hơn vì nó phải tự động... detect Và track Một số lượng đối tượng không xác định và biến động liên tục xuất hiện và biến mất khỏi khung cảnh, đòi hỏi logic quản lý bộ nhớ mạnh mẽ.

Các Ứng dụng Thực tế

Khả năng chuyển đổi nguồn cấp dữ liệu video thành dữ liệu có cấu trúc thúc đẩy sự đổi mới trong nhiều ngành công nghiệp, cho phép lập mô hình dự đoán và ra quyết định tự động.

  • Hệ thống giao thông thông minh: Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong ngành ô tô , MOT (Motor-of-Transportation) rất cần thiết cho xe tự lái và cơ sở hạ tầng thành phố thông minh . Nó cho phép ước tính tốc độ bằng cách phân tích quãng đường xe di chuyển theo thời gian và giúp ngăn ngừa tai nạn bằng cách dự đoán quỹ đạo của người đi bộ và người đi xe đạp.
  • Phân tích bán lẻ: Các cửa hàng truyền thống sử dụng trí tuệ nhân tạo (AI) trong bán lẻ để phân tích hành vi của người mua sắm. Bằng cách áp dụng thuật toán tối ưu hóa dựa trên thao tác (MOT) để đếm vật thể , các nhà bán lẻ có thể tạo ra bản đồ nhiệt của các lối đi có lưu lượng người qua lại cao, theo dõi thời gian dừng chân và tối ưu hóa việc quản lý hàng đợi để giảm thời gian chờ đợi tại quầy thanh toán.

Triển khai theo dõi với Python

Các ultralytics Gói phần mềm này cung cấp giao diện liền mạch cho MOT, tích hợp các thuật toán mạnh mẽ như... BoT-SORTByteTrackVí dụ sau đây minh họa cách tải một mô hình và track các đối tượng trong luồng video.

from ultralytics import YOLO

# Load a pre-trained YOLO model (YOLO11n is used here, YOLO26n is also supported)
model = YOLO("yolo11n.pt")

# Perform tracking on a video source
# 'persist=True' ensures tracks are maintained between frames
results = model.track(source="https://youtu.be/LNwODJXcvt4", persist=True, tracker="bytetrack.yaml")

# Visualize the first frame's results with IDs drawn
results[0].show()

Quy trình đơn giản này tự động xử lý việc phát hiện, liên kết và gán ID, cho phép các nhà phát triển tập trung vào logic cấp cao hơn như đếm vùng hoặc kích hoạt hành vi. Để biết thêm chi tiết về cấu hình, hãy tham khảo tài liệu về chế độ theo dõi .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay