Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Bắt tay vào thực hành với YOLO -Thế giới

Abirami Vina

4 phút đọc

Ngày 5 tháng 4 năm 2024

Tìm hiểu về YOLO -World, một mô hình phát hiện đối tượng sáng tạo có thể xác định đối tượng thông qua lời nhắc văn bản. Khám phá cách YOLO -World hoạt động và các ứng dụng của nó, và thực hành với một ví dụ mã nhanh.

Các dự án thị giác máy tính thường đòi hỏi nhiều thời gian chú thích dữ liệu và đào tạo các mô hình phát hiện đối tượng . Tuy nhiên, điều đó có thể sớm trở thành dĩ vãng. Phòng thí nghiệm AI của Tencent đã phát hành YOLO -World , một mô hình phát hiện đối tượng theo thời gian thực, sử dụng từ vựng mở, vào ngày 31 tháng 1 năm 2024. YOLO -World là mô hình không cần xử lý, nghĩa là bạn có thể chạy suy luận phát hiện đối tượng trên hình ảnh mà không cần phải đào tạo.

Các mô hình Zero-shot có tiềm năng thay đổi cách chúng ta tiếp cận các ứng dụng thị giác máy tính. Trong bài viết này, chúng ta sẽ khám phá cách YOLO -World hoạt động và những ứng dụng tiềm năng của nó, đồng thời chia sẻ ví dụ mã thực tế để bạn bắt đầu.

Một cái nhìn thoáng qua YOLO -Thế giới

Bạn có thể truyền hình ảnh và văn bản nhắc nhở mô tả các đối tượng bạn đang tìm kiếm thông qua YOLO - Mô hình thế giới. Ví dụ, nếu bạn muốn tìm "một người mặc áo sơ mi đỏ" trong một bức ảnh, YOLO -Thế giới tiếp nhận thông tin này và bắt đầu hoạt động.

Kiến trúc độc đáo của mô hình kết hợp ba yếu tố chính:

  • Một bộ phát hiện dựa trên mô hình phát hiện đối tượng Ultralytics YOLOv8 để phân tích nội dung trực quan của hình ảnh.
  • Một bộ mã hóa văn bản (text encoder) được đào tạo trước bởi CLIP của OpenAI, được thiết kế đặc biệt để hiểu truy vấn văn bản của bạn.
  • Một mạng, Mạng tổng hợp đường dẫn ngôn ngữ thị giác (Vision-Language Path Aggregation Network - RepVL-PAN), tích hợp dữ liệu hình ảnh đã xử lý với dữ liệu văn bản.

Các YOLO Bộ dò quét hình ảnh đầu vào của bạn để xác định các đối tượng tiềm năng. Bộ mã hóa văn bản chuyển đổi mô tả của bạn thành định dạng mà mô hình có thể hiểu được. Hai luồng thông tin này sau đó được hợp nhất thông qua RepVL-PAN bằng phương pháp hợp nhất đa phương thức. Nó cho phép YOLO -Thế giới chính xác detect và xác định vị trí các vật thể được mô tả trong lời nhắc của bạn trong hình ảnh.

Một ví dụ về kết quả từ YOLO -Thế giới.

Lợi ích của việc lựa chọn YOLO -Thế giới

Một trong những lợi thế lớn nhất của việc sử dụng YOLO - Ưu điểm là bạn không cần phải huấn luyện mô hình cho một lớp cụ thể. Nó đã học được từ các cặp hình ảnh và văn bản, vì vậy nó biết cách tìm đối tượng dựa trên mô tả. Bạn có thể tránh được hàng giờ thu thập dữ liệu, chú thích dữ liệu, huấn luyện trên GPU đắt tiền, v.v.

Dưới đây là một số lợi ích khác của việc sử dụng YOLO -Thế giới:

  • Hiệu suất thời gian thực - YOLO -World hỗ trợ hiệu suất thời gian thực giống như bản gốc YOLO Kiến trúc. Lý tưởng cho các ứng dụng yêu cầu phát hiện đối tượng ngay lập tức như xe tự hành và hệ thống giám sát.
  • Phân đoạn phiên bản - YOLO - Thế giới có thể phác thảo và phân tách các vật thể trong hình ảnh một cách gọn gàng, ngay cả khi những vật thể đó không được dạy cụ thể trong quá trình đào tạo.
  • Hiệu quả - YOLO -World kết hợp độ chính xác cao với hiệu suất tính toán, giúp nó trở nên thiết thực cho các ứng dụng thực tế. Kiến trúc hợp lý của nó giúp phát hiện vật thể nhanh chóng mà không đòi hỏi quá nhiều sức mạnh xử lý.

Các ứng dụng của YOLO -Thế giới

YOLO - Các mô hình thế giới có thể được sử dụng cho nhiều ứng dụng khác nhau. Chúng ta hãy cùng khám phá một số ứng dụng trong số đó.

Kiểm soát chất lượng trong sản xuất

Các sản phẩm được sản xuất trên dây chuyền lắp ráp được kiểm tra trực quan để tìm lỗi trước khi đóng gói. Việc phát hiện lỗi thường được thực hiện thủ công, tốn thời gian và có thể dẫn đến sai sót. Những sai sót này có thể gây ra các vấn đề như chi phí cao và cần sửa chữa hoặc thu hồi. Để hỗ trợ việc này, các camera machine vision chuyên dụng và hệ thống AI đã được tạo ra để thực hiện các kiểm tra này. 

YOLO - Mô hình thế giới là một bước tiến lớn trong lĩnh vực này. Chúng có thể tìm ra lỗi sản phẩm ngay cả khi chưa được đào tạo cho vấn đề cụ thể đó bằng khả năng "zero-shot" của mình. Ví dụ, một nhà máy sản xuất chai nước có thể dễ dàng phân biệt giữa một chai được đóng kín đúng cách bằng nắp chai với một chai bị thiếu nắp hoặc bị lỗi khi sử dụng YOLO -Thế giới.

Một ví dụ về kiểm tra nắp chai.

Robot học

YOLO - Mô hình thế giới cho phép robot tương tác với môi trường lạ. Không cần được huấn luyện về các vật thể cụ thể có thể có trong phòng, chúng vẫn có thể xác định được những vật thể nào đang hiện diện. Ví dụ, giả sử một robot bước vào một căn phòng mà nó chưa từng đến trước đây. Với YOLO -Mô hình thế giới, nó vẫn có thể nhận dạng và xác định các vật thể như ghế, bàn hoặc đèn, mặc dù nó chưa được đào tạo cụ thể về những vật thể đó.

Ngoài việc phát hiện đối tượng, YOLO -Thế giới cũng có thể xác định các điều kiện của các đối tượng đó, nhờ vào 'nhanh chóng-sau đó-' của nó detect ' tính năng. Ví dụ, trong robot nông nghiệp , nó có thể được sử dụng để xác định trái cây chín so với trái cây chưa chín bằng cách lập trình robot để detect họ.

Ứng dụng AI trong ngành công nghiệp ô tô

Ngành công nghiệp ô tô liên quan đến nhiều bộ phận chuyển động và YOLO -World có thể được sử dụng cho nhiều ứng dụng ô tô khác nhau. Ví dụ, khi nói đến việc bảo dưỡng ô tô, YOLO - Khả năng nhận dạng nhiều loại vật thể khác nhau của thế giới mà không cần gắn thẻ thủ công hoặc đào tạo trước rộng rãi là cực kỳ hữu ích. YOLO -World có thể được sử dụng để xác định các bộ phận ô tô cần thay thế. Nó thậm chí có thể tự động hóa các tác vụ như kiểm tra chất lượng, phát hiện lỗi hoặc thiếu bộ phận trên xe mới.

Một ứng dụng khác là phát hiện vật thể không cần bắn trong xe tự lái . YOLO - Khả năng phát hiện không có phát bắn nào của thế giới có thể cải thiện khả năng của xe tự hành detect Và classify các vật thể trên đường, chẳng hạn như người đi bộ, biển báo giao thông và các phương tiện khác, theo thời gian thực. Bằng cách đó, nó có thể giúp detect tránh chướng ngại vật và ngăn ngừa tai nạn để có một chuyến đi an toàn hơn. 

Một ví dụ về phát hiện các đối tượng trên đường.

Quản lý hàng tồn kho cho các cửa hàng bán lẻ

Việc xác định các mặt hàng trên kệ trong các cửa hàng bán lẻ là một phần quan trọng trong việc theo dõi hàng tồn kho, duy trì hàng tồn kho và tự động hóa quy trình. Ultralytics YOLO - Khả năng nhận dạng nhiều loại vật thể khác nhau của World mà không cần gắn thẻ thủ công hoặc đào tạo trước rộng rãi là cực kỳ hữu ích cho việc quản lý hàng tồn kho. 

Ví dụ, trong quản lý hàng tồn kho , YOLO -World có thể nhanh chóng xác định và phân loại các mặt hàng trên kệ, chẳng hạn như các nhãn hiệu nước tăng lực khác nhau. Các cửa hàng bán lẻ có thể duy trì hàng tồn kho chính xác, quản lý lượng hàng tồn kho hiệu quả và vận hành chuỗi cung ứng trơn tru. 

Tất cả các ứng dụng đều độc đáo và cho thấy mức độ rộng rãi YOLO -Thế giới có thể được sử dụng. Tiếp theo, chúng ta hãy thực hành với YOLO -Thế giới và xem một ví dụ mã hóa.

Hướng dẫn chi tiết về code

Như chúng tôi đã đề cập trước đây, YOLO -Thế giới có thể được sử dụng để detect Các bộ phận khác nhau của xe cần được bảo dưỡng. Một ứng dụng thị giác máy tính phát hiện bất kỳ sửa chữa nào cần thiết sẽ bao gồm việc chụp ảnh xe, xác định các bộ phận, kiểm tra từng bộ phận xem có hư hỏng không và đề xuất sửa chữa. Mỗi bộ phận của hệ thống này sẽ sử dụng các kỹ thuật và phương pháp AI khác nhau. Trong phần hướng dẫn mã này, chúng ta hãy tập trung vào bộ phận được phát hiện có bộ phận nào.

Với YOLO -World, bạn có thể xác định các bộ phận khác nhau của ô tô trong một hình ảnh trong vòng chưa đầy 5 phút. Bạn có thể mở rộng mã này để thử nghiệm các ứng dụng khác nhau bằng cách sử dụng YOLO -World cũng vậy! Để bắt đầu, chúng ta cần cài đặt gói Ultralytics như hình dưới đây.

Để biết thêm hướng dẫn và các phương pháp hay nhất liên quan đến quy trình cài đặt, hãy xem hướng dẫn Cài đặt Ultralytics của chúng tôi. Trong khi cài đặt các gói cần thiết cho YOLOv8 Nếu bạn gặp bất kỳ khó khăn nào, hãy xem hướng dẫn Sự cố thường gặp của chúng tôi để biết giải pháp và mẹo.

Sau khi bạn đã cài đặt gói cần thiết, chúng ta có thể tải xuống một hình ảnh từ Internet để chạy các suy luận của mình. Chúng ta sẽ sử dụng hình ảnh bên dưới.

Hình ảnh đầu vào của chúng ta.

Sau đó, chúng ta sẽ nhập gói cần thiết, khởi tạo mô hình của chúng ta và đặt các lớp mà chúng ta đang tìm kiếm trong hình ảnh đầu vào của chúng ta. Ở đây, chúng ta quan tâm đến các lớp sau: xe hơi, bánh xe, cửa xe hơi, gương xe hơi và biển số xe.

Sau đó, chúng ta sẽ sử dụng phương pháp dự đoán, cung cấp đường dẫn của hình ảnh cùng với các tham số cho số lượng phát hiện tối đa và ngưỡng cho giao điểm trên hợp ( IoU ) và độ tin cậy (conf) để chạy suy luận trên hình ảnh. Cuối cùng, các đối tượng được phát hiện sẽ được lưu vào tệp có tên 'result.jpg'.

Hình ảnh đầu ra sau đây sẽ được lưu vào các tệp của bạn.

Hình ảnh đầu ra của chúng tôi.

Nếu bạn muốn xem những gì YOLO -Thế giới có thể hoạt động mà không cần lập trình, bạn có thể đến YOLO -Trang demo thế giới, tải lên hình ảnh đầu vào và nhập các lớp tùy chỉnh. 

Đọc trang tài liệu của chúng tôi về YOLO -World để tìm hiểu cách lưu mô hình với các lớp tùy chỉnh để có thể sử dụng trực tiếp sau này mà không cần nhập lại các lớp tùy chỉnh nhiều lần .

Bạn có nhận thấy cửa xe không được phát hiện không?

Nếu bạn xem lại hình ảnh đầu ra, bạn sẽ thấy lớp tùy chỉnh "car door" không được phát hiện. Mặc dù đã đạt được những thành tựu to lớn, YOLO - Thế giới có những hạn chế nhất định. Để khắc phục những hạn chế này và sử dụng YOLO -Mô hình thế giới hiệu quả, điều quan trọng là sử dụng đúng loại lời nhắc văn bản. 

Dưới đây là một số thông tin chi tiết:

  • YOLO - Thế giới có thể không cần mức độ tin cậy cao để dự đoán chính xác, do đó việc giảm ngưỡng tin cậy có thể cải thiện tỷ lệ phát hiện.
  • Thêm các lớp bạn không quan tâm. Điều này sẽ giúp cải thiện khả năng phát hiện đối tượng chính bằng cách giảm thiểu các kết quả dương tính giả cho các đối tượng thứ cấp.
  • Phát hiện các đối tượng lớn trước khi tập trung vào các chi tiết nhỏ hơn có thể cải thiện độ chính xác của việc phát hiện.
  • Hãy đề cập đến màu sắc trong lớp học của bạn để detect các vật thể dựa trên tín hiệu màu sắc.
  • Việc mô tả kích thước đối tượng trong lời nhắc cũng có thể hữu ích YOLO - Thế giới xác định các đối tượng cụ thể chính xác hơn.
  • Các phương pháp hậu xử lý, chẳng hạn như lọc các dự đoán theo kích thước hoặc điều chỉnh mức độ tin cậy cho mỗi lớp, có thể cải thiện hơn nữa kết quả phát hiện đối tượng.

Giới hạn là vô tận

Tổng thể, YOLO - Các mô hình thế giới có thể được biến thành một công cụ mạnh mẽ với khả năng phát hiện đối tượng tiên tiến. Nó mang lại hiệu quả, độ chính xác cao và giúp tự động hóa các tác vụ khác nhau trên nhiều ứng dụng khác nhau, như ví dụ về việc xác định các bộ phận ô tô mà chúng ta đã thảo luận thực tế.

Hãy thoải mái khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về những đóng góp của chúng tôi cho thị giác máy tính và AI. Nếu bạn tò mò về cách AI đang định hình lại các lĩnh vực như công nghệ chăm sóc sức khỏe , hãy xem các trang giải pháp của chúng tôi. Những khả năng với các đổi mới như YOLO - Thế giới dường như vô tận!

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí