Thuật ngữ

Theo dõi đối tượng

Khám phá theo dõi đối tượng với Ultralytics ! Tìm hiểu cách theo dõi chuyển động, hành vi và tương tác trong video bằng cách sử dụng YOLO mô hình cho các ứng dụng thời gian thực.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Theo dõi đối tượng là một nhiệm vụ cơ bản trong thị giác máy tính (CV) liên quan đến việc xác định và theo dõi các đối tượng cụ thể khi chúng di chuyển qua một chuỗi các khung hình video hoặc nguồn cấp dữ liệu camera. Không giống như phát hiện đối tượng , tập trung vào việc định vị các đối tượng trong các hình ảnh tĩnh riêng lẻ hoặc các khung hình video đơn lẻ, theo dõi đối tượng duy trì danh tính và quỹ đạo của các đối tượng này theo thời gian. Việc giám sát liên tục này cho phép các hệ thống hiểu được chuyển động, hành vi và tương tác của đối tượng trong các môi trường động, cung cấp thông tin chi tiết phong phú hơn so với chỉ phát hiện. Đây là thành phần cốt lõi trong nhiều ứng dụng Vision AI .

Theo dõi đối tượng hoạt động như thế nào

Theo dõi đối tượng thường bắt đầu bằng cách phát hiện các đối tượng trong khung ban đầu bằng cách sử dụng một bộ phát hiện đối tượng, chẳng hạn như mô hình YOLO Ultralytics . Khi một đối tượng được phát hiện, thường được biểu diễn bằng một hộp giới hạn , thuật toán theo dõi sẽ gán cho đối tượng đó một ID duy nhất. Trong các khung tiếp theo, thuật toán dự đoán vị trí mới của đối tượng dựa trên trạng thái trước đó của nó, có thể bao gồm các đặc điểm về vị trí, vận tốc và hình dạng. Dự đoán này thường liên quan đến các kỹ thuật như ước tính chuyển động . Sau đó, hệ thống liên kết các đối tượng mới được phát hiện trong khung hiện tại với các đối tượng đã theo dõi hiện có, cập nhật đường đi của chúng và duy trì ID duy nhất của chúng.

Quá trình này phải xử lý một số thách thức, bao gồm các đối tượng tạm thời bị ẩn (bị che khuất), thay đổi về ngoại hình đối tượng, tương tác phức tạp giữa nhiều đối tượng và các biến thể về ánh sáng hoặc góc nhìn của camera. Các kỹ thuật phổ biến được sử dụng để giải quyết những vấn đề này bao gồm các phương pháp lọc như Bộ lọc Kalman (KF) để dự đoán chuyển động và liên kết, và các phương pháp học sâu (DL) tiên tiến hơn như SORT (Theo dõi trực tuyến và thời gian thực đơn giản)DeepSORT , kết hợp các tính năng chuyển động và ngoại hình để theo dõi mạnh mẽ hơn. Ultralytics các mô hình hỗ trợ nhiều trình theo dõi có sẵn để triển khai các kỹ thuật này. Xử lý tắc nghẽn hiệu quả là rất quan trọng để duy trì tính liên tục của đường dẫn.

Sự khác biệt chính từ các khái niệm liên quan

Điều quan trọng là phải phân biệt việc theo dõi đối tượng với các tác vụ thị giác máy tính liên quan khác:

  • Phát hiện đối tượng : Xác định và định vị các đối tượng (thường có hộp giới hạn) trong một hình ảnh hoặc khung hình duy nhất. Nó trả lời "Những đối tượng nào ở đâu trong khung hình này?" Theo dõi đối tượng dựa trên phát hiện bằng cách thêm chiều thời gian, trả lời "Đối tượng cụ thể này đã di chuyển theo thời gian ở đâu?"
  • Phân loại hình ảnh : Gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: 'có chứa một con mèo'). Nó không xác định vị trí các đối tượng hoặc theo dõi chúng.
  • Phân đoạn hình ảnh : Gán nhãn lớp cho từng pixel trong hình ảnh. Trong khi phân đoạn thể hiện phân biệt các thể hiện đối tượng khác nhau, phân đoạn chuẩn không theo dõi các thể hiện này trên các khung hình. Kết hợp phân đoạn thể hiện với theo dõi ( phân đoạn thể hiện và theo dõi ) là một nhiệm vụ liên quan nhưng phức tạp hơn, cung cấp mặt nạ cấp pixel cho các đối tượng được theo dõi.

Ứng dụng trong thế giới thực

Theo dõi đối tượng, cụ thể là Theo dõi nhiều đối tượng (MOT) , rất quan trọng đối với nhiều ứng dụng AI trong thế giới thực:

  • Xe tự hành : Thiết yếu để theo dõi người đi bộ, người đi xe đạp và các phương tiện khác để dự đoán chuyển động của họ, cho phép điều hướng an toàn và tránh va chạm. Khả năng này là cơ bản để đạt được mức độ tự động hóa lái xe cao hơn và cung cấp năng lượng cho nhiều giải pháp AI trong xe tự lái .
  • Giám sát và an ninh bằng video : Giám sát người hoặc phương tiện ở những khu vực nhạy cảm, phát hiện hành vi bất thường và kích hoạt cảnh báo tự động. Ví dụ bao gồm xây dựng hệ thống báo động an ninh hoặc sử dụng camera an ninh AI để bảo vệ chu vi.
  • Phân tích bán lẻ : Theo dõi hành trình của khách hàng qua các cửa hàng để tối ưu hóa bố cục, phân tích thời gian dừng chân, thực hiện quản lý hàng đợi tự động và hiểu các mẫu hình mua sắm để nâng cao trải nghiệm của khách hàng trong AI bán lẻ .
  • Phân tích thể thao : Theo dõi cầu thủ và bóng trong suốt trận đấu cung cấp dữ liệu có giá trị để phân tích hiệu suất, lập kế hoạch chiến thuật và tạo điểm nhấn tự động. Tìm hiểu thêm về thị giác máy tính trong thể thao .
  • Robot : Cho phép robot theo dõi và tương tác với các vật thể hoặc con người trong môi trường năng động, rất quan trọng cho các nhiệm vụ như sản xuất hợp tác hoặc điều hướng tự động trong kho.
  • Giám sát động vật hoang dã: Theo dõi động vật một cách không xâm lấn để nghiên cứu hành vi, mô hình di cư và quy mô quần thể, hỗ trợ các nỗ lực bảo tồn. Ultralytics các mô hình như YOLOv8 đã được sử dụng để theo dõi động vật .
  • Quản lý giao thông: Theo dõi lưu lượng xe, đếm xe ở các khu vực cụ thể ( Đếm khu vực ) và phát hiện sự cố để có cơ sở hạ tầng thành phố thông minh hơn ( AI trong quản lý giao thông ).

Công cụ và triển khai

Việc triển khai theo dõi đối tượng thường liên quan đến việc kết hợp các mô hình phát hiện đối tượng với các thuật toán theo dõi. Các thư viện phổ biến như OpenCV cung cấp các chức năng theo dõi cơ bản. Các khuôn khổ như PyTorchTensorFlow được sử dụng để xây dựng và đào tạo các mô hình phát hiện cơ bản. Ultralytics đơn giản hóa quy trình này bằng cách tích hợp khả năng theo dõi trực tiếp vào các mô hình của nó như YOLO11 . Người dùng có thể dễ dàng bật theo dõi bằng chế độ theo dõi chuyên dụng. Để quản lý toàn bộ quy trình làm việc từ chú thích dữ liệu đến triển khai, các nền tảng như Ultralytics HUB cung cấp các công cụ toàn diện. Bạn có thể làm theo các hướng dẫn như hướng dẫn Theo dõi đối tượng YOLO11 để bắt đầu.

Đọc tất cả