Khám phá tính năng Theo dõi nhiều đối tượng (Multi-Object Tracking - MOT) trong thị giác máy tính. Tìm hiểu cách thức thực hiện... detect Và track các thực thể sử dụng Ultralytics YOLO26 dành cho xe tự lái, bán lẻ và nhiều lĩnh vực khác.
Theo dõi đa đối tượng (Multi-Object Tracking - MOT) là một nhiệm vụ động trong thị giác máy tính (Computer Vision - CV) liên quan đến việc phát hiện nhiều thực thể riêng biệt trong luồng video và duy trì danh tính của chúng theo thời gian. Không giống như phát hiện đối tượng tiêu chuẩn, vốn coi mỗi khung hình là một ảnh chụp riêng biệt, MOT đưa thêm chiều thời gian vào trí tuệ nhân tạo (AI) . Bằng cách gán một số nhận dạng duy nhất (ID) cho mỗi đối tượng được phát hiện—chẳng hạn như một người đi bộ cụ thể trong đám đông hoặc một phương tiện trên đường cao tốc—các thuật toán MOT cho phép hệ thống theo dõi quỹ đạo, phân tích hành vi và hiểu các tương tác. Khả năng này là nền tảng cho việc hiểu video hiện đại và cho phép máy móc nhận biết tính liên tục trong một môi trường thay đổi.
Hầu hết các hệ thống theo dõi hiện đại hoạt động dựa trên mô hình "theo dõi bằng cách phát hiện". Cách tiếp cận này chia quá trình thành hai giai đoạn chính: xác định những gì có trong khung hình và sau đó liên kết những phát hiện đó với các đối tượng đã biết trong quá khứ.
Mặc dù thuật ngữ tương tự, nhưng Theo dõi đa đối tượng (Multi-Object Tracking - MOT) khác biệt đáng kể so với Theo dõi đơn đối tượng (Single Object Tracking - SOT) . SOT tập trung vào việc theo dõi một mục tiêu cụ thể được khởi tạo trong khung hình đầu tiên, thường bỏ qua tất cả các thực thể khác. Ngược lại, MOT phải xử lý một số lượng mục tiêu không xác định và thay đổi có thể xuất hiện hoặc biến mất khỏi khung hình bất cứ lúc nào. Điều này làm cho MOT đòi hỏi nhiều tài nguyên tính toán hơn, vì nó cần logic mạnh mẽ để xử lý. track sự khởi đầu, kết thúc và sự tương tác phức tạp giữa nhiều vật thể chuyển động.
Khả năng track Nhiều thực thể cùng lúc thúc đẩy sự đổi mới trong nhiều ngành công nghiệp lớn.
Ultralytics Điều này giúp việc triển khai theo dõi bằng các mô hình hiện đại trở nên dễ dàng hơn.
track() Phương pháp này tích hợp logic phát hiện và theo dõi một cách liền mạch, hỗ trợ các thuật toán như...
ByteTrack và
BoT-SORTVí dụ bên dưới minh họa việc theo dõi phương tiện trong video bằng cách sử dụng phương pháp được đề xuất.
Mô hình YOLO26.
from ultralytics import YOLO
# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")
# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)
# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")
Mặc dù đã có những tiến bộ, MOT vẫn là một lĩnh vực đầy thách thức. Che khuất là một khó khăn chính; khi các đối tượng giao nhau hoặc bị che khuất bởi vật cản, việc duy trì nhận dạng trở nên phức tạp. Các cảnh đông đúc , chẳng hạn như một cuộc chạy marathon nhộn nhịp hoặc một đàn chim, kiểm tra giới hạn của các thuật toán liên kết dữ liệu . Hơn nữa, việc duy trì tốc độ suy luận thời gian thực trong khi xử lý các luồng video độ phân giải cao đòi hỏi kiến trúc mô hình hiệu quả và thường là phần cứng chuyên dụng như thiết bị NVIDIA Jetson .
Để giải quyết những thách thức này, các nhà nghiên cứu đang khám phá các phương pháp học sâu từ đầu đến cuối, tích hợp việc phát hiện và theo dõi vào một mạng lưới duy nhất, cũng như tận dụng Nền tảng Ultralytics để chú thích các tập dữ liệu phức tạp và huấn luyện các mô hình tùy chỉnh mạnh mẽ.