Tìm hiểu cách thức hoạt động của hệ thống theo dõi thị giác máy tính, khám phá các mô hình phổ biến hỗ trợ theo dõi đối tượng như YOLO11 và khám phá những ứng dụng thực tế của chúng.
Robot có thể lắp ráp các bộ phận điện, hệ thống bắt xe chạy quá tốc độ và các giải pháp bán lẻ thông minh theo dõi cách khách hàng mua sắm - tất cả những cải tiến này đều dựa trên thị giác máy tính . Đây là một nhánh của trí tuệ nhân tạo (AI) giúp máy móc phân tích và hiểu hình ảnh và video.
Ví dụ, một robot cần nhận dạng và theo dõi các bộ phận khác nhau để lắp ráp chúng đúng cách. Tương tự như vậy, một hệ thống giao thông có thể sử dụng thị giác máy tính để phát hiện ô tô, đọc biển số xe và tìm ra khi nào ai đó đang chạy quá tốc độ. Trong khi đó, tại các cửa hàng, Vision AI có thể giúp theo dõi những gì khách hàng đang nhìn hoặc nhặt và thậm chí có thể theo dõi hàng tồn kho.
Các ứng dụng như vậy được hỗ trợ bởi các mô hình thị giác máy tính như Ultralytics YOLO11 , hỗ trợ nhiều tác vụ thị giác. Nhiều tác vụ trong số này tập trung vào việc thu thập thông tin chi tiết từ một hình ảnh duy nhất, nhưng một tác vụ đặc biệt thú vị, theo dõi đối tượng , có thể được sử dụng để theo dõi chuyển động của các đối tượng trên một loạt hình ảnh hoặc khung video.
Trong hướng dẫn này, chúng ta sẽ xem xét kỹ hơn cách thức hoạt động của tính năng theo dõi đối tượng và khám phá các ví dụ thực tế về cách sử dụng tính năng này. Chúng ta cũng sẽ thảo luận về cách các mô hình Vision AI như Ultralytics YOLO11 hỗ trợ theo dõi đối tượng. Hãy bắt đầu thôi!
Theo dõi đối tượng là một tác vụ thị giác máy tính được sử dụng để theo dõi chuyển động của các đối tượng trên các khung hình video, giúp hệ thống giám sát và hiểu cách mọi thứ thay đổi theo thời gian. Điều này rất giống với cách con người có thể tự nhiên theo dõi một người hoặc vật thể đang chuyển động bằng mắt của họ, giống như khi bạn đang xem một trận đấu quần vợt và mắt bạn theo dõi quả bóng khi nó di chuyển qua lại trên sân.
Tương tự như vậy, theo dõi đối tượng liên quan đến việc sử dụng camera và AI để theo dõi chuyển động của quả bóng theo thời gian thực. Công nghệ này có thể giúp người xem tại nhà hiểu rõ hơn về diễn biến của trò chơi, đặc biệt là thông qua các phân tích như tốc độ, quỹ đạo và vị trí của người chơi.
Trong khi loại theo dõi trực quan này có vẻ dễ dàng với con người, khi nói đến thị giác máy, nó bao gồm một loạt các bước được hỗ trợ bởi các mô hình Vision AI. Sau đây là một phân tích đơn giản về cách hoạt động của theo dõi đối tượng:
Một nhiệm vụ thị giác máy tính khác được hỗ trợ bởi YOLO11 có liên quan chặt chẽ đến việc theo dõi đối tượng là phát hiện đối tượng . Chúng ta hãy cùng khám phá sự khác biệt giữa hai nhiệm vụ này.
Phát hiện đối tượng liên quan đến việc xác định và định vị các đối tượng quan tâm trong một hình ảnh hoặc khung video duy nhất. Ví dụ, một chiếc xe tự lái sử dụng phát hiện đối tượng để nhận dạng biển báo dừng hoặc người đi bộ trong một khung hình duy nhất được camera trên xe chụp lại. Nó trả lời câu hỏi: "Có gì trong hình ảnh này và nó ở đâu?" Tuy nhiên, nó không cung cấp bất kỳ thông tin nào về nơi tiếp theo đối tượng sẽ đến.
Theo dõi đối tượng dựa trên phát hiện đối tượng bằng cách thêm hiểu biết về chuyển động theo thời gian. Sự khác biệt chính giữa hai phương pháp này là cách chúng xử lý thời gian và chuyển động. Phát hiện đối tượng coi mỗi khung hình là một ảnh chụp nhanh độc lập, trong khi theo dõi đối tượng kết nối các điểm giữa các khung hình, sử dụng dữ liệu trong quá khứ để dự đoán vị trí tương lai của đối tượng.
Bằng cách kết hợp cả hai, chúng ta có thể xây dựng các hệ thống AI thị giác mạnh mẽ có khả năng theo dõi thời gian thực trong môi trường động. Ví dụ, một hệ thống an ninh tự động có thể phát hiện những người bước vào không gian và liên tục theo dõi chuyển động của họ trên toàn bộ khung hình.
Bây giờ chúng ta đã đề cập đến sự khác biệt giữa phát hiện và theo dõi đối tượng, hãy cùng xem xét cách Ultralytics YOLO các mô hình, như YOLO11 , hỗ trợ theo dõi đối tượng theo thời gian thực.
Trong khi YOLO Các mô hình không phải là thuật toán theo dõi bản thân chúng, chúng đóng vai trò thiết yếu bằng cách phát hiện các đối tượng trong mỗi khung hình video. Khi các đối tượng được phát hiện, các thuật toán theo dõi cần phải gán ID duy nhất cho chúng, cho phép hệ thống theo dõi chuyển động của chúng từ khung hình này sang khung hình khác.
Để giải quyết nhu cầu này, gói Ultralytics Python tích hợp liền mạch phát hiện đối tượng với các thuật toán theo dõi phổ biến như BoT-SORT và ByteTrack. Tích hợp này cho phép người dùng chạy phát hiện và theo dõi cùng nhau với thiết lập tối thiểu.
Khi sử dụng YOLO mô hình theo dõi đối tượng, bạn có thể chọn thuật toán theo dõi nào để áp dụng dựa trên yêu cầu của ứng dụng. Ví dụ, BoT-SORT là một lựa chọn tốt để theo dõi các đối tượng di chuyển không thể đoán trước, nhờ sử dụng dự đoán chuyển động và học sâu. Mặt khác, ByteTrack hoạt động đặc biệt tốt trong các cảnh đông đúc, duy trì khả năng theo dõi đáng tin cậy ngay cả khi các đối tượng bị mờ hoặc ẩn một phần.
Đào tạo tùy chỉnh là quá trình tinh chỉnh mô hình phát hiện đối tượng được đào tạo trước, như YOLO11 , trên một tập dữ liệu cụ thể để có thể nhận dạng các đối tượng không có trong các tập dữ liệu chuẩn. Điều này đặc biệt quan trọng khi hệ thống theo dõi của bạn cần theo dõi các đối tượng tùy chỉnh hoặc không phổ biến.
Hệ thống theo dõi dựa vào mô hình phát hiện để nhận dạng đối tượng đầu tiên. Nếu YOLO Nếu mô hình không thể phát hiện một mục cụ thể, chẳng hạn như một loại máy móc hoặc loài động vật hoang dã cụ thể, thuật toán theo dõi sẽ không thể theo dõi được mục đó.
Đó là lý do tại sao việc đào tạo tùy chỉnh lại cần thiết: nó đảm bảo rằng mô hình phát hiện có thể xác định chính xác các đối tượng bạn muốn theo dõi.
Điều quan trọng cần lưu ý là chỉ có mô hình phát hiện được tinh chỉnh trong quá trình này. Các thuật toán theo dõi, chẳng hạn như BoT-SORT hoặc ByteTrack, không được đào tạo tùy chỉnh - chúng chỉ sử dụng đầu ra từ YOLO mô hình để theo dõi các đối tượng được phát hiện trên các khung hình.
Bây giờ chúng ta đã hiểu rõ hơn về theo dõi đối tượng là gì và nó hoạt động như thế nào, hãy cùng khám phá một số ứng dụng thực tế mà công nghệ này đang tạo ra tác động.
Hệ thống ước tính tốc độ được hỗ trợ bởi thị giác máy tính phụ thuộc vào các tác vụ như phát hiện và theo dõi đối tượng. Các hệ thống này được thiết kế để tính toán tốc độ di chuyển của một đối tượng - cho dù đó là xe cộ, người đi xe đạp hay thậm chí là một người. Thông tin này rất quan trọng đối với nhiều ứng dụng, từ quản lý giao thông đến giám sát an toàn và tự động hóa công nghiệp.
Sử dụng một mô hình như Ultralytics YOLO11 , các đối tượng có thể được phát hiện và theo dõi trên các khung hình video. Bằng cách phân tích khoảng cách di chuyển của một đối tượng trong một khoảng thời gian cụ thể, hệ thống có thể ước tính tốc độ của nó.
Quy trình sản xuất có thể diễn ra nhanh và cực kỳ phức tạp, khiến việc theo dõi mọi mặt hàng được sản xuất thủ công trở nên khó khăn. Theo dõi đối tượng cung cấp một giải pháp tốt để tự động hóa việc giám sát sản phẩm khi chúng di chuyển qua từng giai đoạn sản xuất. Nó có thể giúp các nhà máy duy trì mức độ chính xác và hiệu quả cao mà không làm chậm mọi thứ.
Từ việc đếm sản phẩm trên băng chuyền đến phát hiện lỗi hoặc xác minh lắp ráp đúng cách, theo dõi đối tượng mang lại khả năng hiển thị và kiểm soát cho các tác vụ mà nếu không sẽ tốn thời gian hoặc dễ xảy ra lỗi. Công nghệ này đặc biệt có tác động trong các ngành công nghiệp có khối lượng lớn như chế biến thực phẩm , điện tử và đóng gói, nơi tốc độ và độ chính xác là rất quan trọng.
Hàng ngày, vô số khách hàng ra vào các cửa hàng bán lẻ và việc hiểu được hành vi của họ là chìa khóa để cải thiện cả trải nghiệm của khách hàng và hiệu suất kinh doanh. Theo dõi đối tượng giúp các nhà bán lẻ có thể theo dõi lưu lượng đi bộ, đo thời gian dừng chân và phân tích các mô hình chuyển động - tất cả mà không cần các phương pháp xâm lấn hoặc thủ công.
Bằng cách theo dõi các cá nhân khi họ vào, ra và di chuyển khắp cửa hàng, các doanh nghiệp có thể có được thông tin chi tiết về giờ cao điểm, khu vực phổ biến và thậm chí là độ dài hàng đợi. Những thông tin chi tiết này có thể cung cấp thông tin cho các quyết định về nhân sự, bố trí cửa hàng và sắp xếp hàng tồn kho, cuối cùng dẫn đến hoạt động hiệu quả hơn và tăng doanh số.
Từ các cửa hàng bán lẻ đến nhà máy, theo dõi đối tượng đang được sử dụng trong mọi loại ngành công nghiệp để cải thiện các yếu tố như hiệu quả, an toàn và trải nghiệm tổng thể. Sau đây là một số lợi ích chính mà theo dõi đối tượng có thể mang lại cho nhiều ngành công nghiệp khác nhau:
Mặc dù những lợi ích này nêu bật cách theo dõi đối tượng tác động tích cực đến các trường hợp sử dụng khác nhau, nhưng cũng quan trọng khi xem xét những thách thức liên quan đến việc triển khai nó. Hãy cùng xem xét kỹ hơn một số hạn chế của theo dõi đối tượng:
Theo dõi đối tượng là một nhiệm vụ thị giác máy tính cho phép máy móc theo dõi chuyển động của các đối tượng theo thời gian. Nó được sử dụng trong nhiều tình huống thực tế - từ ước tính tốc độ xe và đếm sản phẩm trên dây chuyền lắp ráp đến phân tích chuyển động của người chơi trong thể thao.
Với các mô hình Vision AI như YOLO11 và các thuật toán theo dõi như BoT-SORT và ByteTrack, việc theo dõi đối tượng đã trở nên nhanh hơn, thông minh hơn và dễ tiếp cận hơn trong nhiều ngành công nghiệp khác nhau. Khi công nghệ theo dõi đối tượng phát triển, nó giúp các hệ thống trở nên thông minh hơn, hiệu quả hơn và phản hồi nhanh hơn, từng khung hình một.
Bạn muốn tìm hiểu thêm về thị giác máy tính và AI? Khám phá kho lưu trữ GitHub của chúng tôi, kết nối với cộng đồng của chúng tôi và xem các tùy chọn cấp phép của chúng tôi để khởi động dự án thị giác máy tính của bạn. Nếu bạn đang khám phá những đổi mới như AI trong sản xuất và thị giác máy tính trong ngành công nghiệp ô tô , hãy truy cập các trang giải pháp của chúng tôi để khám phá thêm.
Bắt đầu hành trình của bạn với tương lai của machine learning