Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Cách sử dụng Ultralytics YOLO11 để phân đoạn thể hiện

Abirami Vina

5 phút đọc

5 tháng 11, 2024

Tìm hiểu cách mô hình Ultralytics YOLO11 mới có thể được sử dụng để phân đoạn thể hiện nhằm đạt được độ chính xác cao hơn trong các ứng dụng như quản lý chất thải và giám sát ngọn lửa.

Thị giác máy tính, một lĩnh vực trong trí tuệ nhân tạo (AI) giúp máy móc diễn giải và hiểu thông tin trực quan, cho phép thực hiện các tác vụ như phân đoạn thể hiện. Phân đoạn thể hiện có thể được sử dụng để phân tích hình ảnh hoặc khung hình video để đánh dấu ranh giới chính xác của từng đối tượng riêng biệt trong hình ảnh, ngay cả khi có nhiều đối tượng cùng loại. Với độ chính xác cao, phân đoạn thể hiện có một loạt các ứng dụng, từ việc giúp xe tự lái phát hiện chướng ngại vật trên đường đến xác định khối u trong quét y tế.

Trong những năm qua, phân đoạn thể hiện đã phát triển đáng kể. Một phát triển gần đây đã được giới thiệu trong sự kiện kết hợp hàng năm của Ultralytics, YOLO Vision 2024 (YV24), dưới dạng mô hình Ultralytics YOLO11. Mô hình mới hỗ trợ các tác vụ thị giác máy tính tương tự (bao gồm phân đoạn thể hiện) như mô hình Ultralytics YOLOv8, vì vậy người dùng quen thuộc với các phiên bản trước có thể áp dụng mô hình mới một cách liền mạch.

Hình 1. Một ví dụ về việc sử dụng mô hình Ultralytics YOLO11 để phân đoạn thể hiện.

Trong bài viết này, chúng ta sẽ khám phá phân đoạn thể hiện và cách nó khác với các tác vụ thị giác máy tính khác như phân đoạn ngữ nghĩa, cũng như thảo luận về một số ứng dụng của nó. Chúng ta cũng sẽ xem qua cách bạn có thể sử dụng mô hình phân đoạn thể hiện YOLO11 bằng cách sử dụng gói Ultralytics Python và nền tảng Ultralytics HUB. Hãy bắt đầu!

Phân đoạn thể hiện là gì?

Phân đoạn thể hiện có thể được sử dụng để xác định các đối tượng trong hình ảnh và phác thảo chúng ở cấp độ pixel. Quá trình này thường bao gồm việc phát hiện các đối tượng và vẽ khung giới hạn xung quanh chúng. Sau đó, một thuật toán phân đoạn phân loại từng pixel trong khung giới hạn để tạo ra một mặt nạ chính xác cho mỗi đối tượng.

Phân đoạn thể hiện cũng khác với các tác vụ như phân đoạn ngữ nghĩa và phân đoạn toàn cảnh. Phân đoạn ngữ nghĩa gán nhãn cho mỗi pixel dựa trên danh mục chung của một đối tượng, mà không phân biệt các thể hiện riêng lẻ. Phân đoạn toàn cảnh, mặt khác, kết hợp cả phân đoạn thể hiện và phân đoạn ngữ nghĩa bằng cách gán nhãn cho mỗi pixel cả lớp và ID thể hiện, xác định các đối tượng riêng lẻ trong mỗi danh mục.

Hình 2. Sử dụng YOLO11 để phát hiện và phân đoạn người và chó.

Khả năng phân đoạn thực thể có thể được áp dụng trong nhiều tình huống khác nhau, đòi hỏi các mô hình khác nhau. Ví dụ: một mô hình gọn nhẹ có thể lý tưởng cho xử lý thời gian thực trong các ứng dụng di động, trong khi một mô hình phức tạp hơn có thể được sử dụng cho các tác vụ có độ chính xác cao như kiểm soát chất lượng trong sản xuất.

Tương tự như các mô hình trước đây, mô hình phân đoạn thực thể YOLO11 cũng có nhiều biến thể tùy thuộc vào nhu cầu của bạn. Các biến thể này bao gồm YOLO11n-seg (Nano), YOLO11s-seg (Small), YOLO11m-seg (Medium), YOLO11l-seg (Large) và YOLO11x-seg (Extra Large). Các mô hình này khác nhau về kích thước, tốc độ xử lý, độ chính xác và lượng sức mạnh tính toán mà chúng yêu cầu. Dựa trên các yêu cầu cụ thể của bạn, bạn có thể chọn mô hình phù hợp nhất với ứng dụng của mình.

Các ứng dụng phân đoạn thực thể cho YOLO11

Các khả năng phân đoạn thực thể nâng cao của YOLO11 mở ra một loạt các ứng dụng trong nhiều ngành công nghiệp khác nhau. Hãy xem xét kỹ hơn một số ứng dụng này.

Sử dụng phân đoạn YOLO11 trong ngành dầu khí

Khai thác dầu khí liên quan đến việc quản lý sự biến động áp suất cực kỳ cao. Các kỹ thuật như đốt khí (gas flaring) giúp đốt cháy khí tự nhiên được tạo ra trong quá trình khai thác dầu. Điều này là cần thiết vì lý do an toàn. Ví dụ: trong khai thác dầu thô, một sự tăng vọt áp suất đột ngột hoặc đáng kể có thể dẫn đến nổ. Mặc dù không phổ biến, nhưng tai nạn công nghiệp trong lĩnh vực sản xuất dầu khí có thể dẫn đến các đám cháy dữ dội, khó kiểm soát và dập tắt. Đốt khí giúp người vận hành giảm áp thiết bị một cách an toàn và quản lý các biến động áp suất lớn, khó lường bằng cách đốt lượng khí dư thừa.

Các hệ thống AI có thể cải thiện quy trình giám sát này và nguy cơ tai nạn có thể được giảm thiểu bằng cách sử dụng hệ thống giám sát đốt khí dựa trên phân đoạn thực thể. Giám sát quá trình đốt khí cũng rất quan trọng vì lý do môi trường, vì đốt quá nhiều khí có thể tác động tiêu cực đến môi trường. 

Các mô hình phân đoạn thực thể Ultralytics YOLO11 có thể được sử dụng để theo dõi lượng lửa và khói do đốt khí gây ra. Diện tích pixel của ngọn lửa và khói được phát hiện và phân đoạn có thể được tính toán. Sử dụng thông tin này, người vận hành có thể thu được thông tin chi tiết theo thời gian thực về ngọn lửa và khói do đốt khí gây ra, giúp họ ngăn ngừa tai nạn và tác động tiêu cực đến môi trường. 

Hình 3. Một ví dụ về giám sát đốt khí sử dụng YOLO11 trong sản xuất dầu khí.

Phân đoạn thực thể với YOLO11 để quản lý chất thải nhựa 

Công nhân tại các cơ sở quản lý chất thảitái chế có thể sử dụng các hệ thống dựa trên phân đoạn thực thể YOLO11 để xác định vật liệu thải nhựa. YOLO11 có thể được tích hợp với các hệ thống phân loại bằng robot để xác định chính xác các vật liệu thải khác nhau, như bìa cứng và nhựa (để xử lý riêng). Điều này đặc biệt quan trọng khi xem xét trong số 7 tỷ tấn chất thải nhựa được tạo ra trên toàn cầu, chỉ có khoảng 10% được tái chế.

Tự động hóa việc xác định và phân loại chất thải nhựa giúp giảm đáng kể thời gian cần thiết so với các phương pháp truyền thống, trong đó công nhân phân loại các vật phẩm bằng tay. Các mô hình thị giác máy tính thậm chí có thể phân đoạn các loại nhựa mềm như giấy gói và túi, vốn đặc biệt khó khăn vì chúng thường bị rối. Các mô hình YOLO11 cũng có thể được huấn luyện tùy chỉnh để phân đoạn các loại nhựa khác nhau. Chúng ta sẽ tìm hiểu thêm về cách bạn có thể huấn luyện tùy chỉnh một mô hình YOLO11 trong các phần sau.

Hình 4. Xác định chất thải nhựa bằng Ultralytics YOLO11. 

Phân đoạn YOLO11 trong xe tự hành

Một trường hợp sử dụng thú vị khác của phân đoạn thực thể là trong xe tự hành. YOLO11 cho phép xe tự lái cải thiện sự an toàn của hành khách và sự an toàn của những người khác trên đường bằng cách nhận dạng chính xác các đối tượng ở cấp độ pixel. Hệ thống camera trên xe có thể chụp ảnh môi trường xung quanh và phân tích chúng bằng YOLO11 và phân đoạn thực thể. Mỗi đối tượng (người đi bộ, đèn giao thông, các phương tiện khác, v.v.) trong hình ảnh được phân đoạn và được gán nhãn. Mức độ chính xác như vậy cho phép xe tự hành có khả năng xác định mọi đối tượng xung quanh chúng. 

Hình 5. Sử dụng YOLO11 và phân đoạn thực thể để xác định xe cộ và người đi bộ trên đường.

Dùng thử phân đoạn thực thể với mô hình YOLO11

Bây giờ chúng ta đã khám phá phân đoạn thực thể và thảo luận về một số ứng dụng của nó, hãy xem cách bạn có thể dùng thử nó bằng mô hình Ultralytics YOLO11. 

Có hai cách để thực hiện việc này: bạn có thể sử dụng gói Ultralytics Python hoặc Ultralytics HUB. Chúng ta sẽ khám phá cả hai, bắt đầu với gói Python.

Chạy suy luận bằng YOLO11

Chạy một suy luận liên quan đến việc sử dụng mô hình để phân tích dữ liệu mới, chưa từng thấy trước đây. Để chạy suy luận bằng mô hình phân đoạn thực thể YOLO11 thông qua mã, chúng ta cần cài đặt gói Ultralytics Python bằng pip, conda hoặc docker. Trong trường hợp bạn gặp bất kỳ sự cố nào trong quá trình cài đặt, bạn có thể tham khảo Hướng dẫn về các sự cố thường gặp của chúng tôi để được hỗ trợ khắc phục sự cố. Sau khi gói được cài đặt, bạn có thể chạy mã được hiển thị bên dưới để tải mô hình phân đoạn thực thể YOLO11 và chạy dự đoán trên một hình ảnh.

Hình 6. Chạy suy luận trên một hình ảnh bằng YOLO11n-seg.

Huấn luyện một mô hình YOLO11 tùy chỉnh

Với cùng một thiết lập mã, bạn cũng có thể huấn luyện một mô hình YOLO11 tùy chỉnh. Bằng cách tinh chỉnh một mô hình YOLO11, bạn có thể tạo một phiên bản tùy chỉnh của mô hình đáp ứng tốt hơn các yêu cầu dự án cụ thể của bạn. Ví dụ: các nhà bán lẻ có thể sử dụng một mô hình tùy chỉnh để phân đoạn chính xác các đặc điểm thể chất của khách hàng để gợi ý quần áo phù hợp. Đoạn mã dưới đây cho thấy cách tải và huấn luyện một mô hình YOLO11 để phân đoạn thực thể. Bạn có thể bắt đầu từ một cấu hình YAML hoặc một mô hình được huấn luyện trước, chuyển trọng số và huấn luyện trên một tập dữ liệu như COCO để đạt được phân đoạn hiệu quả. 

Sau khi hoàn tất, bạn có thể thực hiện suy luận bằng mô hình tùy chỉnh cho các ứng dụng cụ thể của mình. Sử dụng tùy chọn xuất, bạn cũng có thể xuất mô hình tùy chỉnh của mình sang một định dạng khác.

Phân đoạn thực thể YOLO11 trên Ultralytics HUB

Sau khi tìm hiểu về cách chạy suy luận và huấn luyện tùy chỉnh mô hình phân đoạn thực thể YOLO11 thông qua code, hãy xem xét một giải pháp thay thế không cần code: Ultralytics HUB. Ultralytics HUB là một nền tảng Vision AI trực quan, đơn giản hóa quy trình huấn luyện và triển khai các mô hình YOLO, bao gồm cả các mô hình phân đoạn thực thể YOLO11. 

Để chạy suy luận trên hình ảnh, tất cả những gì bạn cần làm là: tạo một tài khoản, truy cập vào phần 'Models' và chọn biến thể mô hình phân đoạn thực thể YOLO11 mà bạn muốn. Bạn có thể tải lên một hình ảnh và xem kết quả dự đoán trong phần xem trước, như hình bên dưới.

Hình 7. Chạy suy luận trên Ultralytics HUB.

Những điều cần nhớ

YOLO11 cung cấp các khả năng phân đoạn thực thể đáng tin cậy, mở ra một thế giới khả năng trong nhiều ngành công nghiệp khác nhau. Từ việc tăng cường an toàn trong xe tự hành và giám sát đốt khí trong lĩnh vực dầu khí đến tự động hóa phân loại chất thải trong các cơ sở tái chế, độ chính xác ở cấp độ pixel của YOLO11 làm cho nó trở nên lý tưởng cho các tác vụ phân đoạn phức tạp. 

Với các tùy chọn huấn luyện tùy chỉnh thông qua gói Ultralytics Python và thiết lập không cần code thông qua Ultralytics HUB, người dùng có thể tích hợp liền mạch YOLO11 vào quy trình làm việc của họ. Cho dù là cho các ứng dụng công nghiệp, chăm sóc sức khỏe, bán lẻ hoặc giám sát môi trường, YOLO11 mang lại sự linh hoạt và chính xác để đáp ứng các nhu cầu phân đoạn đa dạng.

Để khám phá thêm, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia với cộng đồng của chúng tôi. Khám phá các ứng dụng AI trong xe tự láinông nghiệp trên các trang giải pháp của chúng tôi. 🚀

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard