Cách sử dụng Ultralytics YOLO11 để phân đoạn ví dụ

Ngày 5 tháng 11 năm 2024
Hiểu cách mô hình Ultralytics YOLO11 mới có thể được sử dụng để phân đoạn nhằm đạt được độ chính xác cao hơn trong các ứng dụng như quản lý chất thải và giám sát ngọn lửa.

Ngày 5 tháng 11 năm 2024
Hiểu cách mô hình Ultralytics YOLO11 mới có thể được sử dụng để phân đoạn nhằm đạt được độ chính xác cao hơn trong các ứng dụng như quản lý chất thải và giám sát ngọn lửa.
Thị giác máy tính , một lĩnh vực trong trí tuệ nhân tạo (AI) giúp máy móc diễn giải và hiểu thông tin trực quan, cho phép thực hiện các tác vụ như phân đoạn trường hợp. Phân đoạn trường hợp có thể được sử dụng để phân tích hình ảnh hoặc khung video để đánh dấu ranh giới chính xác của từng đối tượng riêng biệt trong hình ảnh, ngay cả khi có nhiều đối tượng cùng loại. Với độ chính xác cao, phân đoạn trường hợp có nhiều ứng dụng, từ giúp xe tự lái phát hiện chướng ngại vật trên đường đến xác định khối u trong quá trình quét y tế .
Trong những năm qua, phân đoạn phiên bản đã phát triển đáng kể. Một sự phát triển gần đây đã được giới thiệu trong sự kiện kết hợp thường niên của Ultralytics, YOLO Vision 2024 (YV24) , dưới dạng mô hình Ultralytics YOLO11 . Mô hình mới hỗ trợ cùng các tác vụ thị giác máy tính (bao gồm phân đoạn phiên bản) như mô hình Ultralytics YOLOv8 , do đó người dùng quen thuộc với các phiên bản trước có thể áp dụng mô hình mới một cách liền mạch.
Trong bài viết này, chúng ta sẽ khám phá phân đoạn thể hiện và cách nó khác với các tác vụ thị giác máy tính khác như phân đoạn ngữ nghĩa, cũng như thảo luận về một số ứng dụng của nó. Chúng ta cũng sẽ hướng dẫn cách bạn có thể sử dụng mô hình phân đoạn thể hiện YOLO11 bằng gói Python Ultralytics và nền tảng Ultralytics HUB . Hãy bắt đầu nào!
Phân đoạn thể hiện có thể được sử dụng để xác định các đối tượng trong hình ảnh và phác thảo chúng ở cấp độ pixel. Quá trình này thường bao gồm việc phát hiện các đối tượng trước tiên và vẽ các hộp giới hạn xung quanh chúng. Sau đó, thuật toán phân đoạn phân loại từng pixel trong hộp giới hạn để tạo mặt nạ chính xác cho từng đối tượng.
Phân đoạn thể hiện cũng khác với các tác vụ như phân đoạn ngữ nghĩa và phân đoạn toàn cảnh. Phân đoạn ngữ nghĩa gắn nhãn cho từng pixel dựa trên danh mục chung của một đối tượng, mà không phân biệt các thể hiện riêng lẻ. Mặt khác, phân đoạn toàn cảnh kết hợp cả phân đoạn thể hiện và phân đoạn ngữ nghĩa bằng cách gắn nhãn cho từng pixel bằng cả một lớp và một ID thể hiện, xác định các đối tượng riêng lẻ trong mỗi danh mục.
Khả năng phân đoạn phiên bản có thể được áp dụng trong nhiều tình huống khác nhau có thể yêu cầu các mô hình khác nhau. Ví dụ, một mô hình nhẹ có thể lý tưởng để xử lý thời gian thực trong các ứng dụng di động, trong khi một mô hình phức tạp hơn có thể được sử dụng cho các tác vụ có độ chính xác cao như kiểm soát chất lượng trong sản xuất.
Giống như các mô hình trước, mô hình phân đoạn phiên bản YOLO11 cũng đi kèm với một số biến thể tùy thuộc vào nhu cầu của bạn. Các biến thể này bao gồm YOLO11n-seg (Nano), YOLO11s-seg (Nhỏ), YOLO11m-seg (Trung bình), YOLO11l-seg (Lớn) và YOLO11x-seg (Cực lớn). Các mô hình này khác nhau về kích thước, tốc độ xử lý, độ chính xác và lượng sức mạnh tính toán mà chúng yêu cầu. Dựa trên các yêu cầu cụ thể của bạn, bạn có thể chọn mô hình phù hợp nhất với ứng dụng của mình.
Khả năng phân đoạn phiên bản nâng cao của YOLO11 mở ra nhiều ứng dụng trong nhiều ngành công nghiệp khác nhau. Chúng ta hãy cùng xem xét kỹ hơn một số ứng dụng này.
Khai thác dầu khí liên quan đến việc quản lý các biến động áp suất cực cao. Các kỹ thuật như đốt khí giúp đốt cháy khí tự nhiên được tạo ra trong quá trình khai thác dầu. Điều này là cần thiết vì lý do an toàn . Ví dụ, trong quá trình khai thác dầu thô, áp suất tăng đột ngột hoặc đáng kể có thể dẫn đến nổ. Mặc dù không phổ biến, nhưng các tai nạn công nghiệp trong lĩnh vực sản xuất dầu khí có thể dẫn đến các đám cháy dữ dội khó có thể dập tắt và kiểm soát. Đốt khí giúp người vận hành giảm áp suất thiết bị một cách an toàn và quản lý các biến động áp suất lớn, không thể đoán trước bằng cách đốt cháy lượng khí dư thừa.
Hệ thống AI có thể cải thiện quy trình giám sát này và rủi ro tai nạn có thể giảm bằng cách sử dụng hệ thống giám sát ngọn lửa dựa trên phân đoạn trường hợp. Việc giám sát việc đốt khí cũng quan trọng vì lý do môi trường, vì việc đốt quá nhiều có thể ảnh hưởng tiêu cực đến môi trường.
Các mô hình phân đoạn trường hợp YOLO11 của Ultralytics có thể được sử dụng để theo dõi lượng khói và lửa do bùng cháy gây ra. Diện tích pixel của khói và ngọn lửa được phát hiện và phân đoạn có thể được tính toán. Sử dụng thông tin này, người vận hành có thể có được thông tin chi tiết theo thời gian thực về khói và ngọn lửa do bùng cháy gây ra, giúp họ ngăn ngừa tai nạn và tác động tiêu cực đến môi trường.
Công nhân tại các cơ sở quản lý và tái chế chất thải có thể sử dụng hệ thống phân đoạn dựa trên trường hợp YOLO11 để xác định vật liệu rác thải nhựa. YOLO11 có thể được tích hợp với hệ thống phân loại bằng rô-bốt để xác định chính xác các vật liệu rác thải khác nhau, như bìa cứng và nhựa (để xử lý riêng). Điều này đặc biệt quan trọng khi xét đến việc trong số 7 tỷ tấn rác thải nhựa được tạo ra trên toàn cầu, chỉ có khoảng 10% được tái chế.
Tự động hóa việc nhận dạng và phân loại rác thải nhựa giúp giảm đáng kể thời gian cần thiết so với các phương pháp truyền thống, trong đó công nhân phân loại các mặt hàng bằng tay. Các mô hình thị giác máy tính thậm chí có thể phân đoạn nhựa mềm như màng bọc và túi, đặc biệt khó khăn vì chúng thường bị rối. Các mô hình YOLO11 cũng có thể được đào tạo tùy chỉnh để phân đoạn các loại nhựa khác nhau. Chúng ta sẽ tìm hiểu thêm về cách bạn có thể đào tạo tùy chỉnh một mô hình YOLO11 trong các phần sau.
Một trường hợp sử dụng thú vị khác của phân đoạn trường hợp là trong xe tự hành . YOLO11 cho phép xe tự lái cải thiện sự an toàn của hành khách và những người khác trên đường bằng cách nhận dạng chính xác các vật thể ở cấp độ pixel. Hệ thống camera trên xe có thể chụp ảnh môi trường xung quanh và phân tích chúng bằng YOLO11 và phân đoạn trường hợp. Mỗi đối tượng (người đi bộ, đèn giao thông, các phương tiện khác, v.v.) trong hình ảnh được phân đoạn và được gắn nhãn. Mức độ chính xác như vậy giúp xe tự hành có khả năng nhận dạng từng đối tượng xung quanh chúng.
Bây giờ chúng ta đã khám phá phân đoạn trường hợp và thảo luận về một số ứng dụng của nó, hãy cùng xem bạn có thể dùng thử nó bằng mô hình Ultralytics YOLO11 như thế nào.
Có hai cách để thực hiện việc này: bạn có thể sử dụng gói Ultralytics Python hoặc Ultralytics HUB. Chúng ta sẽ khám phá cả hai, bắt đầu với gói Python.
Chạy suy luận liên quan đến việc sử dụng mô hình để phân tích dữ liệu mới, chưa từng thấy trước đây. Để chạy suy luận bằng mô hình phân đoạn phiên bản YOLO11 thông qua mã, chúng ta cần cài đặt gói Python Ultralytics bằng pip, conda hoặc docker. Trong trường hợp bạn gặp bất kỳ sự cố nào trong quá trình cài đặt, bạn có thể tham khảo Hướng dẫn sự cố thường gặp của chúng tôi để được hỗ trợ khắc phục sự cố. Sau khi cài đặt gói, bạn có thể chạy mã được hiển thị bên dưới để tải mô hình phân đoạn phiên bản YOLO11 và chạy dự đoán trên một hình ảnh.
Với cùng một thiết lập mã, bạn cũng có thể đào tạo một mô hình YOLO11 tùy chỉnh. Bằng cách tinh chỉnh một mô hình YOLO11, bạn có thể tạo ra một phiên bản tùy chỉnh của mô hình đáp ứng tốt hơn các yêu cầu cụ thể của dự án . Ví dụ: các nhà bán lẻ có thể sử dụng một mô hình tùy chỉnh để phân đoạn chính xác các đặc điểm vật lý của khách hàng để đề xuất quần áo vừa vặn. Đoạn mã dưới đây cho thấy cách tải và đào tạo một mô hình YOLO11 để phân đoạn ví dụ. Bạn có thể bắt đầu từ cấu hình YAML hoặc một mô hình được đào tạo trước, chuyển trọng số và đào tạo trên một tập dữ liệu như COCO để đạt được phân đoạn hiệu quả.
Sau khi hoàn tất, bạn có thể thực hiện suy luận bằng mô hình tùy chỉnh cho các ứng dụng cụ thể của mình. Sử dụng tùy chọn xuất , bạn cũng có thể xuất mô hình tùy chỉnh của mình sang định dạng khác.
Bây giờ chúng ta đã khám phá cách chạy suy luận và đào tạo tùy chỉnh mô hình phân đoạn phiên bản YOLO11 thông qua mã, hãy cùng xem xét một giải pháp thay thế không cần mã: Ultralytics HUB . Ultralytics HUB là một nền tảng Vision AI trực quan giúp đơn giản hóa quy trình đào tạo và triển khai các mô hình YOLO, bao gồm các mô hình phân đoạn phiên bản YOLO11.
Để chạy suy luận trên hình ảnh, tất cả những gì bạn phải làm là; tạo một tài khoản , đi đến phần 'Mô hình' và chọn biến thể mô hình phân đoạn phiên bản YOLO11 theo lựa chọn của bạn. Bạn có thể tải lên một hình ảnh và xem kết quả dự đoán trong phần xem trước, như được hiển thị bên dưới.
YOLO11 cung cấp khả năng phân đoạn trường hợp đáng tin cậy mở ra một thế giới khả năng trong nhiều ngành công nghiệp khác nhau. Từ việc tăng cường an toàn trong xe tự hành và giám sát khí đốt trong ngành dầu khí cho đến tự động phân loại rác thải trong các cơ sở tái chế, độ chính xác ở cấp độ pixel của YOLO11 khiến nó trở nên lý tưởng cho các tác vụ phân đoạn phức tạp.
Với các tùy chọn đào tạo tùy chỉnh thông qua gói Ultralytics Python và thiết lập không cần mã thông qua Ultralytics HUB, người dùng có thể tích hợp YOLO11 vào quy trình làm việc của họ một cách liền mạch. Cho dù là ứng dụng công nghiệp, chăm sóc sức khỏe, bán lẻ hay giám sát môi trường, YOLO11 đều mang lại sự linh hoạt và độ chính xác để đáp ứng các nhu cầu phân khúc đa dạng.
Để khám phá thêm, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Khám phá các ứng dụng AI trong xe tự lái và nông nghiệp trên các trang giải pháp của chúng tôi. 🚀