Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Theo Dõi Đối Tượng

Khám phá theo dõi đối tượng với Ultralytics! Tìm hiểu cách theo dõi chuyển động, hành vi và tương tác trong video bằng các mô hình YOLO cho các ứng dụng thời gian thực.

Theo dõi đối tượng là một nhiệm vụ cơ bản trong thị giác máy tính (CV), bao gồm việc xác định và theo dõi một hoặc nhiều đối tượng chuyển động trên một chuỗi các khung hình video. Không giống như phát hiện đối tượng (object detection), vốn định vị các đối tượng trong một hình ảnh duy nhất, theo dõi đối tượng thêm một chiều thời gian bằng cách gán một ID duy nhất cho mỗi đối tượng và duy trì danh tính của nó khi nó di chuyển, thay đổi hình dạng hoặc bị che khuất tạm thời. Khả năng này cho phép hiểu sâu hơn về hành vi, tương tác và kiểu chuyển động của đối tượng theo thời gian, biến nó thành nền tảng của nhiều ứng dụng phân tích video động.

Theo dõi đối tượng hoạt động như thế nào

Quá trình theo dõi đối tượng thường bắt đầu bằng cách sử dụng mô hình object detection để xác định và định vị các đối tượng trong khung hình đầu tiên của video. Mỗi đối tượng được phát hiện được gán một ID theo dõi duy nhất. Trong các khung hình tiếp theo, thuật toán theo dõi dự đoán các vị trí mới của các đối tượng này và cố gắng khớp chúng với các đối tượng mới được phát hiện. Quá trình này dựa trên các kỹ thuật khác nhau:

  • Dự đoán chuyển động: Các thuật toán như Bộ lọc Kalman (KF) được sử dụng để ước tính vị trí tương lai của một đối tượng dựa trên các trạng thái trước đây của nó (vị trí, vận tốc). Điều này giúp thu hẹp khu vực tìm kiếm đối tượng trong khung hình tiếp theo.
  • Đối sánh hình thức: Điều này liên quan đến việc trích xuất các đặc trưng đặc biệt từ một đối tượng, chẳng hạn như biểu đồ màu hoặc các embedding dựa trên học sâu. Các đặc trưng này tạo ra một chữ ký duy nhất giúp xác định lại đối tượng ngay cả sau khi bị che khuất hoặc thay đổi đáng kể về hình thức.
  • Liên kết dữ liệu: Đây là bước quan trọng để khớp các track hiện có với các detection mới. Các thuật toán như thuật toán Hungarian hoặc các phương pháp nâng cao hơn như ByteTrackBoT-SORT xử lý liên kết này, ngay cả trong các tình huống phức tạp với nhiều đối tượng.

So sánh theo dõi đối tượng với phát hiện đối tượng

Mặc dù liên quan chặt chẽ, theo dõi đối tượng và phát hiện đối tượng phục vụ các mục đích khác nhau.

  • Phát hiện đối tượng: Đây là quá trình xác định và phân loại các đối tượng trong một hình ảnh hoặc khung hình video duy nhất. Đầu ra là một tập hợp các hộp giới hạn, nhãn lớp và điểm tin cậy cho mỗi đối tượng. Nó trả lời câu hỏi, "Những đối tượng nào có trong khung hình này?"
  • Theo dõi đối tượng: Điều này xây dựng dựa trên phát hiện đối tượng. Nó lấy các phát hiện từ mỗi khung hình và liên kết chúng trên toàn bộ chuỗi video, gán một ID liên tục cho mỗi đối tượng. Nó trả lời câu hỏi, "Đối tượng cụ thể này đang đi đâu?"

Về bản chất, bạn có thể coi phát hiện đối tượng (object detection) là chụp ảnh nhanh, trong khi theo dõi đối tượng (object tracking) tạo ra một câu chuyện liên tục về hành trình của mỗi đối tượng thông qua video. Các mô hình Ultralytics YOLO tích hợp liền mạch cả hai, cho phép người dùng thực hiện theo dõi đa đối tượng (multi-object tracking) với hiệu quả và độ chính xác (accuracy) cao.

Các Ứng dụng Thực tế

Theo dõi đối tượng là một công nghệ mang tính chuyển đổi với nhiều ứng dụng trong các ngành công nghiệp khác nhau.

  • Giám sát và An ninh Thông minh (Smart Surveillance and Security): Trong lĩnh vực an ninh, theo dõi đối tượng được sử dụng để giám sát người và phương tiện trong thời gian thực. Một hệ thống có thể được cấu hình để tự động theo dõi một người đi vào khu vực hạn chế, theo dõi một chiếc xe khả nghi trong bãi đậu xe hoặc đếm số lượng người ra vào tòa nhà. Điều này cho phép đưa ra cảnh báo tự động và phân tích pháp lý mà không cần sự giám sát thường xuyên của con người. Ví dụ: một hệ thống báo động an ninh (security alarm system) có thể được xây dựng để kích hoạt khi một người bị theo dõi di chuyển vào một khu vực được xác định trước sau giờ làm việc.
  • Xe tự hành: Đối với xe tự lái, việc theo dõi các phương tiện, người đi bộ và người đi xe đạp khác là rất quan trọng để điều hướng an toàn. Bằng cách theo dõi các đối tượng xung quanh, xe có thể dự đoán quỹ đạo của chúng, hiểu ý định của chúng (ví dụ: người đi bộ chuẩn bị băng qua đường) và đưa ra các quyết định sáng suốt để tránh va chạm. Việc theo dõi liên tục này cung cấp sự hiểu biết phong phú hơn nhiều về môi trường so với chỉ phát hiện một khung hình.
  • Phân tích Thể thao (Sports Analytics): Huấn luyện viên và nhà phân tích sử dụng theo dõi đối tượng để theo dõi chuyển động của người chơi trên sân. Bằng cách theo dõi từng người chơi, họ có thể phân tích đội hình, đo lường các chỉ số hiệu suất như quãng đường di chuyển và tốc độ, đồng thời phát triển các chiến lược trò chơi tốt hơn. Điều này có thể được kết hợp với ước tính tư thế (pose estimation) để phân tích chi tiết kỹ thuật của người chơi.
  • Retail Analytics (Phân tích bán lẻ): Các nhà bán lẻ sử dụng theo dõi để hiểu hành vi của khách hàng trong cửa hàng. Bằng cách phân tích mô hình lưu lượng người đi bộ, thời gian dừng lại ở các lối đi khác nhau và tương tác với sản phẩm, các doanh nghiệp có thể tối ưu hóa bố cục cửa hàng và cải thiện trải nghiệm của khách hàng. Điều này cũng có thể được sử dụng để queue management (quản lý hàng đợi) để giảm thời gian chờ đợi khi thanh toán.

Công Cụ và Triển khai

Việc triển khai các giải pháp theo dõi đối tượng mạnh mẽ trở nên dễ dàng hơn bao giờ hết với các công cụ và framework hiện đại.

  • Thư viện và Framework: Các thư viện như OpenCV cung cấp các công cụ nền tảng cho xử lý video và bao gồm một số thuật toán theo dõi cổ điển. Các framework học sâu hiện đại như PyTorchTensorFlow được sử dụng để xây dựng các mô hình phát hiện mạnh mẽ, đóng vai trò là xương sống cho việc theo dõi.
  • Các mô hình Ultralytics YOLO: Ultralytics đơn giản hóa việc triển khai theo dõi hiệu suất cao. Các mô hình như YOLO11 đi kèm với các khả năng theo dõi được tích hợp sẵn, được tối ưu hóa cao, có thể được kích hoạt bằng một lệnh đơn giản. Tích hợp này cho phép các nhà phát triển tận dụng khả năng phát hiện hiện đại cho các tác vụ như đối tượng, phân đoạn thể hiện và theo dõi tư thế. Bạn có thể bắt đầu nhanh chóng bằng cách làm theo hướng dẫn Theo dõi đối tượng YOLO11.
  • Nền tảng End-to-End: Để quản lý toàn bộ vòng đời máy học, từ chú thích dữ liệu đến triển khai mô hình, các nền tảng như Ultralytics HUB cung cấp một bộ công cụ toàn diện. Điều này giúp đơn giản hóa quy trình huấn luyện các mô hình tùy chỉnh và triển khai chúng vào môi trường sản xuất.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard