Tìm hiểu về YOLO -World, một mô hình phát hiện đối tượng sáng tạo có thể xác định đối tượng thông qua lời nhắc văn bản. Khám phá cách YOLO -World hoạt động và các ứng dụng của nó, và thực hành với một ví dụ mã nhanh.

Tìm hiểu về YOLO -World, một mô hình phát hiện đối tượng sáng tạo có thể xác định đối tượng thông qua lời nhắc văn bản. Khám phá cách YOLO -World hoạt động và các ứng dụng của nó, và thực hành với một ví dụ mã nhanh.

Các dự án thị giác máy tính thường đòi hỏi nhiều thời gian chú thích dữ liệu và đào tạo các mô hình phát hiện đối tượng . Tuy nhiên, điều đó có thể sớm trở thành dĩ vãng. Phòng thí nghiệm AI của Tencent đã phát hành YOLO -World , một mô hình phát hiện đối tượng theo thời gian thực, sử dụng từ vựng mở, vào ngày 31 tháng 1 năm 2024. YOLO -World là mô hình không cần xử lý, nghĩa là bạn có thể chạy suy luận phát hiện đối tượng trên hình ảnh mà không cần phải đào tạo.
Các mô hình Zero-shot có tiềm năng thay đổi cách chúng ta tiếp cận các ứng dụng thị giác máy tính. Trong bài viết này, chúng ta sẽ khám phá cách YOLO -World hoạt động và những ứng dụng tiềm năng của nó, đồng thời chia sẻ ví dụ mã thực tế để bạn bắt đầu.
Bạn có thể truyền hình ảnh và văn bản nhắc nhở mô tả các đối tượng bạn đang tìm kiếm thông qua YOLO - Mô hình thế giới. Ví dụ, nếu bạn muốn tìm "một người mặc áo sơ mi đỏ" trong một bức ảnh, YOLO -Thế giới tiếp nhận thông tin này và bắt đầu hoạt động.
Kiến trúc độc đáo của mô hình kết hợp ba yếu tố chính:
Các YOLO Bộ dò quét hình ảnh đầu vào của bạn để xác định các đối tượng tiềm năng. Bộ mã hóa văn bản chuyển đổi mô tả của bạn thành định dạng mà mô hình có thể hiểu được. Hai luồng thông tin này sau đó được hợp nhất thông qua RepVL-PAN bằng phương pháp hợp nhất đa phương thức. Nó cho phép YOLO -Thế giới chính xác detect và xác định vị trí các vật thể được mô tả trong lời nhắc của bạn trong hình ảnh.

Một trong những lợi thế lớn nhất của việc sử dụng YOLO - Ưu điểm là bạn không cần phải huấn luyện mô hình cho một lớp cụ thể. Nó đã học được từ các cặp hình ảnh và văn bản, vì vậy nó biết cách tìm đối tượng dựa trên mô tả. Bạn có thể tránh được hàng giờ thu thập dữ liệu, chú thích dữ liệu, huấn luyện trên GPU đắt tiền, v.v.
Dưới đây là một số lợi ích khác của việc sử dụng YOLO -Thế giới:
YOLO - Các mô hình thế giới có thể được sử dụng cho nhiều ứng dụng khác nhau. Chúng ta hãy cùng khám phá một số ứng dụng trong số đó.
Các sản phẩm được sản xuất trên dây chuyền lắp ráp được kiểm tra trực quan để tìm lỗi trước khi đóng gói. Việc phát hiện lỗi thường được thực hiện thủ công, tốn thời gian và có thể dẫn đến sai sót. Những sai sót này có thể gây ra các vấn đề như chi phí cao và cần sửa chữa hoặc thu hồi. Để hỗ trợ việc này, các camera machine vision chuyên dụng và hệ thống AI đã được tạo ra để thực hiện các kiểm tra này.
YOLO - Mô hình thế giới là một bước tiến lớn trong lĩnh vực này. Chúng có thể tìm ra lỗi sản phẩm ngay cả khi chưa được đào tạo cho vấn đề cụ thể đó bằng khả năng "zero-shot" của mình. Ví dụ, một nhà máy sản xuất chai nước có thể dễ dàng phân biệt giữa một chai được đóng kín đúng cách bằng nắp chai với một chai bị thiếu nắp hoặc bị lỗi khi sử dụng YOLO -Thế giới.

YOLO - Mô hình thế giới cho phép robot tương tác với môi trường lạ. Không cần được huấn luyện về các vật thể cụ thể có thể có trong phòng, chúng vẫn có thể xác định được những vật thể nào đang hiện diện. Ví dụ, giả sử một robot bước vào một căn phòng mà nó chưa từng đến trước đây. Với YOLO -Mô hình thế giới, nó vẫn có thể nhận dạng và xác định các vật thể như ghế, bàn hoặc đèn, mặc dù nó chưa được đào tạo cụ thể về những vật thể đó.
Ngoài việc phát hiện đối tượng, YOLO -Thế giới cũng có thể xác định các điều kiện của các đối tượng đó, nhờ vào 'nhanh chóng-sau đó-' của nó detect ' tính năng. Ví dụ, trong robot nông nghiệp , nó có thể được sử dụng để xác định trái cây chín so với trái cây chưa chín bằng cách lập trình robot để detect họ.
Ngành công nghiệp ô tô liên quan đến nhiều bộ phận chuyển động và YOLO -World có thể được sử dụng cho nhiều ứng dụng ô tô khác nhau. Ví dụ, khi nói đến việc bảo dưỡng ô tô, YOLO - Khả năng nhận dạng nhiều loại vật thể khác nhau của thế giới mà không cần gắn thẻ thủ công hoặc đào tạo trước rộng rãi là cực kỳ hữu ích. YOLO -World có thể được sử dụng để xác định các bộ phận ô tô cần thay thế. Nó thậm chí có thể tự động hóa các tác vụ như kiểm tra chất lượng, phát hiện lỗi hoặc thiếu bộ phận trên xe mới.
Một ứng dụng khác là phát hiện vật thể không cần bắn trong xe tự lái . YOLO - Khả năng phát hiện không có phát bắn nào của thế giới có thể cải thiện khả năng của xe tự hành detect Và classify các vật thể trên đường, chẳng hạn như người đi bộ, biển báo giao thông và các phương tiện khác, theo thời gian thực. Bằng cách đó, nó có thể giúp detect tránh chướng ngại vật và ngăn ngừa tai nạn để có một chuyến đi an toàn hơn.

Việc xác định các mặt hàng trên kệ trong các cửa hàng bán lẻ là một phần quan trọng trong việc theo dõi hàng tồn kho, duy trì hàng tồn kho và tự động hóa quy trình. Ultralytics YOLO - Khả năng nhận dạng nhiều loại vật thể khác nhau của World mà không cần gắn thẻ thủ công hoặc đào tạo trước rộng rãi là cực kỳ hữu ích cho việc quản lý hàng tồn kho.
Ví dụ, trong quản lý hàng tồn kho , YOLO -World có thể nhanh chóng xác định và phân loại các mặt hàng trên kệ, chẳng hạn như các nhãn hiệu nước tăng lực khác nhau. Các cửa hàng bán lẻ có thể duy trì hàng tồn kho chính xác, quản lý lượng hàng tồn kho hiệu quả và vận hành chuỗi cung ứng trơn tru.
Tất cả các ứng dụng đều độc đáo và cho thấy mức độ rộng rãi YOLO -Thế giới có thể được sử dụng. Tiếp theo, chúng ta hãy thực hành với YOLO -Thế giới và xem một ví dụ mã hóa.
Như chúng tôi đã đề cập trước đây, YOLO -Thế giới có thể được sử dụng để detect Các bộ phận khác nhau của xe cần được bảo dưỡng. Một ứng dụng thị giác máy tính phát hiện bất kỳ sửa chữa nào cần thiết sẽ bao gồm việc chụp ảnh xe, xác định các bộ phận, kiểm tra từng bộ phận xem có hư hỏng không và đề xuất sửa chữa. Mỗi bộ phận của hệ thống này sẽ sử dụng các kỹ thuật và phương pháp AI khác nhau. Trong phần hướng dẫn mã này, chúng ta hãy tập trung vào bộ phận được phát hiện có bộ phận nào.
Với YOLO -World, bạn có thể xác định các bộ phận khác nhau của ô tô trong một hình ảnh trong vòng chưa đầy 5 phút. Bạn có thể mở rộng mã này để thử nghiệm các ứng dụng khác nhau bằng cách sử dụng YOLO -World cũng vậy! Để bắt đầu, chúng ta cần cài đặt gói Ultralytics như hình dưới đây.
Để biết thêm hướng dẫn và các phương pháp hay nhất liên quan đến quy trình cài đặt, hãy xem hướng dẫn Cài đặt Ultralytics của chúng tôi. Trong khi cài đặt các gói cần thiết cho YOLOv8 Nếu bạn gặp bất kỳ khó khăn nào, hãy xem hướng dẫn Sự cố thường gặp của chúng tôi để biết giải pháp và mẹo.
Sau khi bạn đã cài đặt gói cần thiết, chúng ta có thể tải xuống một hình ảnh từ Internet để chạy các suy luận của mình. Chúng ta sẽ sử dụng hình ảnh bên dưới.

Sau đó, chúng ta sẽ nhập gói cần thiết, khởi tạo mô hình của chúng ta và đặt các lớp mà chúng ta đang tìm kiếm trong hình ảnh đầu vào của chúng ta. Ở đây, chúng ta quan tâm đến các lớp sau: xe hơi, bánh xe, cửa xe hơi, gương xe hơi và biển số xe.
Sau đó, chúng ta sẽ sử dụng phương pháp dự đoán, cung cấp đường dẫn của hình ảnh cùng với các tham số cho số lượng phát hiện tối đa và ngưỡng cho giao điểm trên hợp ( IoU ) và độ tin cậy (conf) để chạy suy luận trên hình ảnh. Cuối cùng, các đối tượng được phát hiện sẽ được lưu vào tệp có tên 'result.jpg'.
Hình ảnh đầu ra sau đây sẽ được lưu vào các tệp của bạn.

Nếu bạn muốn xem những gì YOLO -Thế giới có thể hoạt động mà không cần lập trình, bạn có thể đến YOLO -Trang demo thế giới, tải lên hình ảnh đầu vào và nhập các lớp tùy chỉnh.
Đọc trang tài liệu của chúng tôi về YOLO -World để tìm hiểu cách lưu mô hình với các lớp tùy chỉnh để có thể sử dụng trực tiếp sau này mà không cần nhập lại các lớp tùy chỉnh nhiều lần .
Nếu bạn xem lại hình ảnh đầu ra, bạn sẽ thấy lớp tùy chỉnh "car door" không được phát hiện. Mặc dù đã đạt được những thành tựu to lớn, YOLO - Thế giới có những hạn chế nhất định. Để khắc phục những hạn chế này và sử dụng YOLO -Mô hình thế giới hiệu quả, điều quan trọng là sử dụng đúng loại lời nhắc văn bản.
Dưới đây là một số thông tin chi tiết:
Tổng thể, YOLO - Các mô hình thế giới có thể được biến thành một công cụ mạnh mẽ với khả năng phát hiện đối tượng tiên tiến. Nó mang lại hiệu quả, độ chính xác cao và giúp tự động hóa các tác vụ khác nhau trên nhiều ứng dụng khác nhau, như ví dụ về việc xác định các bộ phận ô tô mà chúng ta đã thảo luận thực tế.
Hãy thoải mái khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về những đóng góp của chúng tôi cho thị giác máy tính và AI. Nếu bạn tò mò về cách AI đang định hình lại các lĩnh vực như công nghệ chăm sóc sức khỏe , hãy xem các trang giải pháp của chúng tôi. Những khả năng với các đổi mới như YOLO - Thế giới dường như vô tận!