Bắt tay vào thực hành với YOLO -Thế giới

Tìm hiểu về YOLO -World, một mô hình phát hiện đối tượng sáng tạo có thể xác định đối tượng thông qua lời nhắc văn bản. Khám phá cách YOLO -Thế giới hoạt động và các ứng dụng của nó, và thực hành với một ví dụ mã nhanh.

Viết bởi

Abirami Vina

phút đọc

Tháng Tư 5, 2024

Ngày 13 tháng 4 năm 2025

Một cái nhìn thoáng qua YOLO -Thế giới

Lợi ích của việc lựa chọn YOLO -Thế giới

Các ứng dụng của YOLO -Thế giới

Kiểm soát chất lượng trong sản xuất

Robotics

AI trong ngành công nghiệp ô tô

Quản lý hàng tồn kho cho cửa hàng bán lẻ

Một hướng dẫn mã

Bạn có để ý thấy cửa xe không được phát hiện không?

Các giới hạn là vô tận

Các dự án thị giác máy tính thường liên quan đến việc dành nhiều thời gian chú thích dữ liệu và đào tạo các mô hình phát hiện đối tượng . Nhưng, điều đó có thể sớm trở thành quá khứ. AI Lab của Tencent được phát hành YOLO-World, một mô hình phát hiện đối tượng từ vựng mở, thời gian thực, vào ngày 31 tháng 1 năm 2024. YOLO-World là một mô hình zero-shot, có nghĩa là bạn có thể chạy các suy luận phát hiện đối tượng trên hình ảnh mà không cần phải đào tạo nó.

Các mô hình zero-shot có khả năng thay đổi cách chúng ta tiếp cận các ứng dụng thị giác máy tính. Trong blog này, chúng ta sẽ khám phá cách thức YOLO-World works và tiềm năng sử dụng của nó và chia sẻ một ví dụ mã thực tế để giúp bạn bắt đầu.

Một cái nhìn thoáng qua YOLO -Thế giới

Bạn có thể chuyển lời nhắc hình ảnh và văn bản mô tả những đối tượng bạn đang tìm kiếm thông qua YOLO-Mô hình thế giới. Ví dụ: nếu bạn quan tâm đến việc tìm "một người mặc áo sơ mi đỏ" trong ảnh, YOLO-Thế giới lấy đầu vào này và bắt đầu làm việc.

Kiến trúc độc đáo của mô hình kết hợp ba yếu tố chính:

Một bộ phát hiện dựa trên mô hình phát hiện đối tượng Ultralytics YOLOv8 để phân tích nội dung trực quan của hình ảnh.
‍
Bộ mã hóa văn bản được đào tạo trước bởi CLIP của OpenAI, được thiết kế riêng để hiểu lời nhắc văn bản của bạn.
‍
Một mạng, Mạng tổng hợp đường dẫn ngôn ngữ tầm nhìn (RepVL-PAN), tích hợp dữ liệu hình ảnh được xử lý với dữ liệu văn bản.

Các YOLO Detector quét hình ảnh đầu vào của bạn để xác định các đối tượng tiềm năng. Bộ mã hóa văn bản chuyển đổi mô tả của bạn thành định dạng mà mô hình có thể hiểu được. Hai luồng thông tin này sau đó được hợp nhất thông qua RepVL-PAN bằng cách sử dụng hợp nhất đa phương thức đa cấp. Nó cho phép YOLO-Thế giới phát hiện chính xác và định vị các đối tượng được mô tả trong lời nhắc của bạn trong hình ảnh.

__wf_reserved_thừa kế — Một ví dụ về kết quả từ YOLO-Thế giới.

Lợi ích của việc lựa chọn YOLO -Thế giới

Một trong những lợi thế lớn nhất của việc sử dụng YOLO-Thế giới là bạn không phải đào tạo mô hình cho một lớp cụ thể. Nó đã học được từ các cặp hình ảnh và văn bản, vì vậy nó biết cách tìm các đối tượng dựa trên mô tả. Bạn có thể tránh hàng giờ thu thập dữ liệu, chú thích dữ liệu, đào tạo về GPU đắt tiền, v.v.

Dưới đây là một số lợi ích khác của việc sử dụng YOLO-Thế giới:

Hiệu suất thời gian thực - YOLO -World hỗ trợ hiệu suất thời gian thực giống như bản gốc YOLO kiến trúc. Lý tưởng cho các ứng dụng yêu cầu phát hiện đối tượng ngay lập tức như xe tự hành và hệ thống giám sát.
‍
Phân đoạn trường hợp - YOLO - Thế giới có thể phác thảo và tách biệt các vật thể trong hình ảnh một cách gọn gàng, ngay cả khi những vật thể đó không được dạy cụ thể trong quá trình đào tạo.
‍
Hiệu quả - YOLO -World kết hợp độ chính xác cao với hiệu quả tính toán, khiến nó trở nên thiết thực cho các ứng dụng trong thế giới thực. Kiến trúc hợp lý của nó giúp phát hiện vật thể nhanh chóng mà không đòi hỏi quá nhiều về sức mạnh xử lý.

Các ứng dụng của YOLO -Thế giới

YOLO-Các mô hình thế giới có thể được sử dụng cho nhiều ứng dụng khác nhau. Hãy cùng khám phá một số trong số họ.

Kiểm soát chất lượng trong sản xuất

Các sản phẩm được sản xuất trên dây chuyền lắp ráp được kiểm tra trực quan các khuyết tật trước khi đóng gói. Việc phát hiện khiếm khuyết thường được thực hiện bằng tay, mất thời gian và có thể dẫn đến sai lầm. Những sai lầm này có thể gây ra các vấn đề như chi phí cao và nhu cầu sửa chữa hoặc thu hồi. Để giúp với điều này, các camera thị giác máy đặc biệt và hệ thống AI đã được tạo ra để thực hiện các kiểm tra này.

YOLO-Mô hình thế giới là một tiến bộ lớn trong lĩnh vực này. Họ có thể tìm thấy lỗi trong sản phẩm ngay cả khi họ chưa được đào tạo cho vấn đề cụ thể đó bằng cách sử dụng khả năng zero-shot của họ. Ví dụ, một nhà máy sản xuất chai nước có thể dễ dàng xác định giữa một chai được niêm phong đúng cách bằng nắp chai so với một chai nơi nắp bị bỏ lỡ hoặc sử dụng bị lỗi YOLO-Thế giới.

Robotics

YOLOMô hình thế giới cho phép robot tương tác với môi trường xa lạ. Không cần được đào tạo về các đối tượng cụ thể có thể ở trong phòng, họ vẫn có thể xác định những đồ vật nào có mặt. Vì vậy, giả sử một robot bước vào một căn phòng mà nó chưa từng ở trước đây. Với một YOLOMô hình thế giới, nó vẫn có thể nhận dạng và xác định các vật thể như ghế, bàn hoặc đèn, mặc dù nó chưa được đào tạo cụ thể về các vật dụng đó.

Ngoài việc phát hiện đối tượng, YOLOThế giới cũng có thể xác định điều kiện của các đối tượng đó, nhờ tính năng 'prompt-then-detect' của nó. Ví dụ, trong robot nông nghiệp , nó có thể được sử dụng để xác định trái cây chín so với trái cây chưa chín bằng cách lập trình robot để phát hiện chúng.

AI trong ngành công nghiệp ô tô

Ngành công nghiệp ô tô liên quan đến nhiều bộ phận chuyển động, và YOLO-Thế giới có thể được sử dụng cho các ứng dụng xe hơi khác nhau. Ví dụ, khi nói đến bảo dưỡng xe hơi, YOLOKhả năng nhận dạng nhiều đối tượng khác nhau của thế giới mà không cần gắn thẻ thủ công hoặc đào tạo trước rộng rãi là vô cùng hữu ích. YOLOThế giới có thể được sử dụng để xác định các bộ phận xe hơi cần được thay thế. Nó thậm chí có thể tự động hóa các nhiệm vụ như kiểm tra chất lượng, phát hiện lỗi hoặc thiếu các bộ phận trong xe mới.

Một ứng dụng khác là phát hiện đối tượng zero-shot trong xe tự lái. YOLOKhả năng phát hiện zero-shot của thế giới có thể cải thiện khả năng của một chiếc xe tự trị để phát hiện và phân loại các vật thể trên đường, chẳng hạn như người đi bộ, biển báo giao thông và các phương tiện khác, trong thời gian thực. Bằng cách đó, nó có thể giúp phát hiện chướng ngại vật và ngăn ngừa tai nạn cho một hành trình an toàn hơn.

Quản lý hàng tồn kho cho cửa hàng bán lẻ

Xác định các đối tượng trên kệ trong các cửa hàng bán lẻ là một phần quan trọng trong việc theo dõi hàng tồn kho, duy trì hàng tồn kho và tự động hóa các quy trình. Ultralytics YOLOKhả năng nhận dạng nhiều loại đối tượng của thế giới mà không cần gắn thẻ thủ công hoặc đào tạo trước rộng rãi là cực kỳ hữu ích cho việc quản lý hàng tồn kho.

Ví dụ, trong quản lý hàng tồn kho, YOLOThế giới có thể nhanh chóng phát hiện và phân loại các mặt hàng trên kệ, chẳng hạn như các nhãn hiệu nước tăng lực khác nhau. Các cửa hàng bán lẻ có thể giữ hàng tồn kho chính xác, quản lý mức tồn kho hiệu quả và làm trơn tru hoạt động của chuỗi cung ứng.

Tất cả các ứng dụng là duy nhất và cho thấy mức độ rộng rãi YOLO-Thế giới có thể được sử dụng. Tiếp theo, chúng ta hãy thực hành với YOLO-Thế giới và hãy xem một ví dụ mã hóa.

Một hướng dẫn mã

Như chúng tôi đã đề cập trước đây, YOLOThế giới có thể được sử dụng để phát hiện các bộ phận khác nhau của xe để bảo trì. Một ứng dụng thị giác máy tính phát hiện bất kỳ sửa chữa cần thiết sẽ liên quan đến việc chụp ảnh chiếc xe, xác định các bộ phận của xe, kiểm tra từng bộ phận của xe xem có bị hư hỏng không và đề xuất sửa chữa. Mỗi phần của hệ thống này sẽ sử dụng các kỹ thuật và cách tiếp cận AI khác nhau. Với mục đích của hướng dẫn mã này, hãy tập trung vào bộ phận khi các bộ phận xe hơi được phát hiện.

Với YOLO-Thế giới, bạn có thể xác định các bộ phận xe hơi khác nhau trong một hình ảnh trong vòng chưa đầy 5 phút. Bạn có thể mở rộng mã này để thử các ứng dụng khác nhau bằng cách sử dụng YOLO-Thế giới cũng! Để bắt đầu, chúng ta sẽ cần cài đặt pip Ultralytics gói như hình dưới đây.

Để biết thêm hướng dẫn và các phương pháp hay nhất liên quan đến quá trình cài đặt, hãy kiểm tra Ultralytics Hướng dẫn cài đặt . Trong khi cài đặt các gói cần thiết cho YOLOv8, nếu bạn gặp bất kỳ khó khăn nào, hãy xem hướng dẫn Các vấn đề thường gặp của chúng tôi để biết các giải pháp và mẹo.

Khi bạn đã cài đặt gói cần thiết, chúng tôi có thể tải xuống hình ảnh từ Internet để chạy suy luận của mình. Chúng tôi sẽ sử dụng hình ảnh dưới đây.

Sau đó, chúng ta sẽ import gói cần thiết, khởi tạo model của chúng ta và thiết lập các class mà chúng ta đang tìm kiếm trong hình ảnh đầu vào của chúng ta. Ở đây, chúng tôi quan tâm đến các lớp sau: ô tô, bánh xe, cửa xe, gương xe và biển số xe.

Sau đó, chúng tôi sẽ sử dụng phương pháp dự đoán, cung cấp đường dẫn của hình ảnh cùng với các tham số cho số lần phát hiện tối đa và ngưỡng giao nhau qua hợp nhất (IoU) và độ tin cậy (conf) để chạy suy luận trên hình ảnh. Cuối cùng, các đối tượng được phát hiện được lưu vào một tệp có tên 'result.jpg.'

Hình ảnh đầu ra sau đây sẽ được lưu vào tệp của bạn.

Nếu bạn muốn xem những gì YOLO - Thế giới có thể hoạt động mà không cần mã hóa, bạn có thể đến YOLO - Trang World Demo, tải lên hình ảnh đầu vào và nhập các lớp tùy chỉnh.

Đọc của chúng tôi Trang Tài liệu trên YOLO-World để tìm hiểu cách lưu mô hình với các lớp tùy chỉnh để nó có thể được sử dụng trực tiếp sau này mà không cần nhập các lớp tùy chỉnh nhiều lần.

Bạn có để ý thấy cửa xe không được phát hiện không?

Nếu bạn nhìn vào hình ảnh đầu ra một lần nữa, bạn sẽ nhận thấy lớp tùy chỉnh "cửa xe" không được phát hiện. Mặc dù đạt được những thành tựu to lớn, YOLO- Thế giới có những hạn chế nhất định. Để chống lại những hạn chế này và sử dụng YOLO-Mô hình thế giới một cách hiệu quả, điều quan trọng là sử dụng đúng loại lời nhắc văn bản.

Dưới đây là một số thông tin chi tiết về nó:

YOLO - Thế giới có thể không cần mức độ tin cậy cao để dự đoán chính xác, do đó việc giảm ngưỡng tin cậy có thể cải thiện tỷ lệ phát hiện.
‍
Thêm các lớp mà bạn không quan tâm. Điều này sẽ giúp cải thiện khả năng phát hiện đối tượng chính bằng cách giảm các kết quả dương tính giả đối với các đối tượng phụ.
‍
Phát hiện các vật thể lớn hơn trước khi tập trung vào các chi tiết nhỏ hơn có thể cải thiện độ chính xác của phát hiện.
‍
Nhắc đến màu sắc trong lớp học của bạn để phát hiện các vật thể dựa trên tín hiệu màu sắc.
‍
Việc mô tả kích thước đối tượng trong lời nhắc cũng có thể giúp ích YOLO - Thế giới xác định các đối tượng cụ thể chính xác hơn.
‍
Các phương pháp xử lý hậu kỳ, chẳng hạn như lọc dự đoán theo kích thước hoặc điều chỉnh mức độ tin cậy cho mỗi lớp, có thể cải thiện hơn nữa kết quả phát hiện đối tượng.

Các giới hạn là vô tận

Chung YOLO-Các mô hình thế giới, có thể được chế tạo thành một công cụ mạnh mẽ với khả năng phát hiện đối tượng tiên tiến của chúng Nó cung cấp hiệu quả cao, độ chính xác và giúp tự động hóa các tác vụ khác nhau trên các ứng dụng khác nhau, như ví dụ về xác định các bộ phận xe hơi mà chúng ta đã thảo luận thực tế.

Vui lòng khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về những đóng góp của chúng tôi cho thị giác máy tính và AI. Nếu bạn tò mò về cách AI đang định hình lại các lĩnh vực như công nghệ chăm sóc sức khỏe , hãy xem các trang giải pháp của chúng tôi. Các khả năng với những đổi mới như YOLO-Thế giới dường như là vô tận!

Bắt tay vào thực hành với YOLO -Thế giới

Một cái nhìn thoáng qua YOLO -Thế giới

Lợi ích của việc lựa chọn YOLO -Thế giới