Bảng chú giải thuật ngữ

Theo dõi nhiều đối tượng (MOT)

Khám phá tính năng Theo dõi nhiều đối tượng (Multi-Object Tracking - MOT) trong thị giác máy tính. Tìm hiểu cách thức thực hiện... detect Và track các thực thể sử dụng Ultralytics YOLO26 dành cho xe tự lái, bán lẻ và nhiều lĩnh vực khác.

Theo dõi đa đối tượng (Multi-Object Tracking - MOT) là một nhiệm vụ động trong thị giác máy tính (Computer Vision - CV) liên quan đến việc phát hiện nhiều thực thể riêng biệt trong luồng video và duy trì danh tính của chúng theo thời gian. Không giống như phát hiện đối tượng tiêu chuẩn, vốn coi mỗi khung hình là một ảnh chụp riêng biệt, MOT đưa thêm chiều thời gian vào trí tuệ nhân tạo (AI) . Bằng cách gán một số nhận dạng duy nhất (ID) cho mỗi đối tượng được phát hiện—chẳng hạn như một người đi bộ cụ thể trong đám đông hoặc một phương tiện trên đường cao tốc—các thuật toán MOT cho phép hệ thống theo dõi quỹ đạo, phân tích hành vi và hiểu các tương tác. Khả năng này là nền tảng cho việc hiểu video hiện đại và cho phép máy móc nhận biết tính liên tục trong một môi trường thay đổi.

Quy trình kiểm định MOT hoạt động như thế nào?

Hầu hết các hệ thống theo dõi hiện đại hoạt động dựa trên mô hình "theo dõi bằng cách phát hiện". Cách tiếp cận này chia quá trình thành hai giai đoạn chính: xác định những gì có trong khung hình và sau đó liên kết những phát hiện đó với các đối tượng đã biết trong quá khứ.

Phát hiện: Trong mỗi khung hình, một mô hình hiệu năng cao như YOLO26 sẽ quét hình ảnh để xác định vị trí các đối tượng, tạo ra các hộp giới hạn và xác suất phân loại.
Dự đoán chuyển động: Để dự đoán hướng di chuyển tiếp theo của một vật thể, các thuật toán thường sử dụng bộ lọc Kalman . Công cụ toán học này ước tính trạng thái của một hệ thống động – chẳng hạn như vận tốc và vị trí – giúp thu hẹp khu vực tìm kiếm trong khung hình tiếp theo.
Liên kết dữ liệu: Hệ thống đối sánh các phát hiện mới với các đường đi hiện có. Các phương pháp tối ưu hóa như thuật toán Hungarian giải quyết vấn đề gán này bằng cách giảm thiểu chi phí đối sánh, thường dựa vào Tỷ lệ giao nhau trên hợp nhất ( IoU ) để đo lường sự chồng chéo không gian.
Nhận dạng lại (Re-Identification - ReID): Khi xảy ra các vật cản tầm nhìn—hay còn gọi là hiện tượng che khuất—các hệ thống theo dõi tiên tiến sử dụng các mã nhận dạng hình ảnh để nhận diện vật thể khi nó xuất hiện trở lại. Điều này giúp ngăn chặn hiện tượng "thay đổi ID", đảm bảo hệ thống biết rằng chiếc xe đi ra từ đường hầm chính là chiếc xe đã đi vào đó.

Phân biệt MOT với Theo dõi đối tượng đơn lẻ

Mặc dù thuật ngữ tương tự, nhưng Theo dõi đa đối tượng (Multi-Object Tracking - MOT) khác biệt đáng kể so với Theo dõi đơn đối tượng (Single Object Tracking - SOT) . SOT tập trung vào việc theo dõi một mục tiêu cụ thể được khởi tạo trong khung hình đầu tiên, thường bỏ qua tất cả các thực thể khác. Ngược lại, MOT phải xử lý một số lượng mục tiêu không xác định và thay đổi có thể xuất hiện hoặc biến mất khỏi khung hình bất cứ lúc nào. Điều này làm cho MOT đòi hỏi nhiều tài nguyên tính toán hơn, vì nó cần logic mạnh mẽ để xử lý. track sự khởi đầu, kết thúc và sự tương tác phức tạp giữa nhiều vật thể chuyển động.

Các Ứng dụng Thực tế

Khả năng track Nhiều thực thể cùng lúc thúc đẩy sự đổi mới trong nhiều ngành công nghiệp lớn.

Lái xe tự hành: Xe tự lái phụ thuộc rất nhiều vào hệ thống nhận diện phương tiện (MOT) để di chuyển an toàn. Bằng cách theo dõi người đi bộ, người đi xe đạp và các phương tiện khác, hệ thống tự hành có thể dự đoán vị trí trong tương lai để tránh va chạm. Điều này thường liên quan đến việc kết hợp dữ liệu từ camera và cảm biến LiDAR để đạt độ tin cậy tối đa.
Phân tích bán lẻ: Tại các cửa hàng truyền thống, các nhà bán lẻ sử dụng trí tuệ nhân tạo (AI) để lập bản đồ hành trình của khách hàng. Các thuật toán MOT tạo ra bản đồ nhiệt về lưu lượng người đi bộ, giúp các nhà quản lý tối ưu hóa bố cục cửa hàng và cải thiện việc quản lý xếp hàng trong giờ cao điểm.
Phân tích thể thao: Các đội chuyên nghiệp sử dụng MOT để phân tích chuyển động của cầu thủ và đội hình. Bằng cách theo dõi từng cầu thủ trên sân, huấn luyện viên có thể trích xuất các số liệu chi tiết về tốc độ, quãng đường di chuyển và vị trí chiến thuật bằng kỹ thuật ước tính tư thế .

Triển khai MOT với Python

Ultralytics Điều này giúp việc triển khai theo dõi bằng các mô hình hiện đại trở nên dễ dàng hơn. track() Phương pháp này tích hợp logic phát hiện và theo dõi một cách liền mạch, hỗ trợ các thuật toán như... ByteTrack và BoT-SORTVí dụ bên dưới minh họa việc theo dõi phương tiện trong video bằng cách sử dụng phương pháp được đề xuất. Mô hình YOLO26.

from ultralytics import YOLO

# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")

# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)

# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
    print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")

Những thách thức trong việc theo dõi nhiều đối tượng

Mặc dù đã có những tiến bộ, MOT vẫn là một lĩnh vực đầy thách thức. Che khuất là một khó khăn chính; khi các đối tượng giao nhau hoặc bị che khuất bởi vật cản, việc duy trì nhận dạng trở nên phức tạp. Các cảnh đông đúc , chẳng hạn như một cuộc chạy marathon nhộn nhịp hoặc một đàn chim, kiểm tra giới hạn của các thuật toán liên kết dữ liệu . Hơn nữa, việc duy trì tốc độ suy luận thời gian thực trong khi xử lý các luồng video độ phân giải cao đòi hỏi kiến trúc mô hình hiệu quả và thường là phần cứng chuyên dụng như thiết bị NVIDIA Jetson .

Để giải quyết những thách thức này, các nhà nghiên cứu đang khám phá các phương pháp học sâu từ đầu đến cuối, tích hợp việc phát hiện và theo dõi vào một mạng lưới duy nhất, cũng như tận dụng Nền tảng Ultralytics để chú thích các tập dữ liệu phức tạp và huấn luyện các mô hình tùy chỉnh mạnh mẽ.

Theo dõi nhiều đối tượng (MOT)

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Quy trình kiểm định MOT hoạt động như thế nào?

Phân biệt MOT với Theo dõi đối tượng đơn lẻ

Các Ứng dụng Thực tế

Triển khai MOT với Python

Những thách thức trong việc theo dõi nhiều đối tượng

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng