Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Theo Dõi Đối Tượng

Khám phá theo dõi đối tượng với Ultralytics ! Học cách track chuyển động, hành vi và tương tác trong video bằng cách sử dụng YOLO mô hình cho các ứng dụng thời gian thực.

Theo dõi đối tượng là một nhiệm vụ then chốt trong thị giác máy tính (CV) , bao gồm việc xác định các thực thể cụ thể trong một chuỗi video và theo dõi chuyển động của chúng qua các khung hình liên tiếp. Không giống như phân tích hình ảnh tĩnh, quá trình này đưa vào một chiều thời gian, cho phép hệ thống duy trì một danh tính duy nhất cho mỗi mục được phát hiện khi nó di chuyển qua một cảnh. Bằng cách gán một mã số nhận dạng (ID) cố định cho mỗi thực thể, các mô hình trí tuệ nhân tạo (AI) có thể phân tích quỹ đạo, tính toán tốc độ và hiểu các tương tác theo thời gian. Khả năng này rất cần thiết để chuyển đổi dữ liệu video thô thành thông tin chi tiết hữu ích, đóng vai trò là nền tảng cho các hệ thống hiểu video tiên tiến.

Cơ chế cốt lõi của việc theo dõi

Các hệ thống theo dõi hiện đại thường hoạt động theo mô hình "theo dõi bằng phát hiện". Quy trình làm việc này bắt đầu với một mô hình phát hiện đối tượng , chẳng hạn như YOLO11 tiên tiến, định vị đối tượng trong từng khung hình riêng lẻ. Sau khi đối tượng được phát hiện và định vị bằng các hộp giới hạn , thuật toán theo dõi sẽ tiếp quản việc liên kết các phát hiện này với các đường đi hiện có từ các khung hình trước đó.

Quá trình này thường bao gồm ba bước quan trọng:

  1. Dự đoán chuyển động: Các thuật toán như Bộ lọc Kalman (KF) sử dụng vị trí và vận tốc trước đây của vật thể để ước tính vị trí nó có thể xuất hiện trong khung hình tiếp theo. Dự đoán này thu hẹp phạm vi tìm kiếm, cải thiện đáng kể hiệu quả tính toán.
  2. Liên kết Dữ liệu: Hệ thống khớp các đối tượng mới được phát hiện với các đường dẫn hiện có bằng các phương pháp tối ưu hóa như thuật toán Hungary . Bước này dựa trên các số liệu như Giao điểm trên Liên kết ( IoU ) để xác định sự chồng lấn không gian hoặc điểm tương đồng về đặc điểm trực quan.
  3. Duy trì Nhận dạng: Các trình theo dõi tinh vi, chẳng hạn như ByteTrackBoT-SORT , xử lý các tình huống phức tạp khi các đối tượng giao nhau hoặc tạm thời bị che khuất sau các chướng ngại vật (bị che khuất). Bằng cách sử dụng trích xuất đặc điểm và nhúng học sâu, hệ thống có thể nhận dạng lại một đối tượng ngay cả khi nó xuất hiện trở lại, ngăn chặn tình trạng "chuyển đổi ID".

So sánh theo dõi đối tượng với phát hiện đối tượng

Mặc dù các thuật ngữ này thường được đề cập cùng nhau, nhưng chúng phục vụ những mục đích riêng biệt trong quy trình học máy (ML) .

  • Phát hiện đối tượng trả lời câu hỏi "Có gì trong hình ảnh này và ở đâu?" Tính năng này xử lý từng khung hình như một sự kiện độc lập, đưa ra nhãn lớp và điểm tin cậy mà không cần nhớ lại quá khứ.
  • Tính năng Theo dõi Đối tượng trả lời câu hỏi "Đối tượng cụ thể này đang đi đâu?" Tính năng này kết nối các lần phát hiện theo thời gian, cho phép hệ thống nhận dạng rằng một chiếc xe trong khung hình 10 là cùng một chiếc xe với chiếc xe trong khung hình 100. Sự khác biệt này rất quan trọng đối với các ứng dụng yêu cầu mô hình hóa dự đoán hành vi.

Các Ứng dụng Thực tế

Khả năng theo dõi các đối tượng một cách đáng tin cậy đang chuyển đổi nhiều ngành công nghiệp khác nhau bằng cách cho phép suy luận thời gian thực trong môi trường động.

  • Hệ thống giao thông thông minh: Trong lĩnh vực xe tự hành , việc theo dõi là điều không thể thương lượng. Xe tự lái phải track Người đi bộ, người đi xe đạp và các phương tiện khác có thể dự đoán vị trí tương lai của họ và tránh va chạm. Điều này thường liên quan đến việc kết hợp dữ liệu từ camera và cảm biến LiDAR để duy trì độ chính xác trong nhiều điều kiện thời tiết khác nhau.
  • Phân tích bán lẻ: Các cửa hàng truyền thống sử dụng AI trong bán lẻ để lập bản đồ hành trình khách hàng. Bằng cách theo dõi các mô hình di chuyển, nhà bán lẻ có thể tạo bản đồ nhiệt của các lối đi phổ biến, phân tích thời gian dừng chân và tối ưu hóa bố cục cửa hàng. Dữ liệu này giúp quản lý hàng đợi và sắp xếp hàng tồn kho hiệu quả.
  • Phân tích Thể thao: Các đội chuyên nghiệp tận dụng công nghệ theo dõi để phân tích hiệu suất của cầu thủ. Bằng cách kết hợp theo dõi với ước tính tư thế , huấn luyện viên có thể đánh giá cơ sinh học, tốc độ và đội hình, mang lại lợi thế cạnh tranh thông qua chiến lược dựa trên dữ liệu.

Triển khai theo dõi với Python

Việc triển khai theo dõi hiệu suất cao rất đơn giản với ultralytics gói. Ví dụ sau đây minh họa cách tải một gói được đào tạo trước YOLO11 người mẫu Và track các đối tượng trong một tập tin video. Các track chế độ tự động xử lý phát hiện và gán ID.

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Track objects in a video source (use '0' for webcam)
# The 'show=True' argument visualizes the tracking IDs in real-time
results = model.track(source="https://supervision.roboflow.com/assets/", show=True)

# Print the unique IDs detected in the first frame
if results[0].boxes.id is not None:
    print(f"Tracked IDs: {results[0].boxes.id.cpu().numpy()}")

Các Khái Niệm Liên Quan

Để nắm bắt đầy đủ các sắc thái của việc theo dõi, việc hiểu về Theo dõi Đa Đối tượng (MOT) sẽ rất hữu ích, đặc biệt tập trung vào việc xử lý nhiều mục tiêu cùng lúc trong các cảnh đông đúc. Hơn nữa, theo dõi thường được kết hợp với phân đoạn thực thể để track đường viền vật thể chính xác thay vì chỉ là các hộp giới hạn, mang lại mức độ chi tiết cao hơn cho các tác vụ như chụp ảnh y tế hoặc thao tác bằng rô-bốt .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay