Phân đoạn phiên bản: Hướng dẫn nhanh

Các ứng dụng thị giác máy tính ngày càng trở nên phổ biến hơn trong cuộc sống hàng ngày của chúng ta, từ camera giao thông giám sát tình trạng đường xá đến hệ thống tự thanh toán trong các cửa hàng. Bằng cách cho phép máy móc hiểu dữ liệu trực quan theo cách tương tự như con người, Thị giác AI đang tạo ra tác động trong một loạt các ngành công nghiệp.

Nhiều ứng dụng trong số này dựa vào phát hiện đối tượng, một tác vụ thị giác máy tính đặt các hộp giới hạn xung quanh các đối tượng chính trong hình ảnh. Mặc dù phương pháp này thường hoạt động tốt, nhưng một số giải pháp phân tích hình ảnh thậm chí còn cần độ chính xác cao hơn.

Ví dụ: hình ảnh y tế, đòi hỏi nhiều hơn là chỉ phát hiện một khối u - điều quan trọng là phải phác thảo hình dạng chính xác của nó. Tương tự, trong robot học, máy móc cần nhận ra các đường viền chính xác của một vật thể để nắm bắt nó một cách chính xác. Để giải quyết những thách thức này, phân vùng thể hiện cung cấp một giải pháp chính xác hơn.

Phân đoạn thể hiện là một tác vụ thị giác máy tính được thiết kế để hỗ trợ các trường hợp sử dụng mà việc phát hiện đối tượng là chưa đủ - nó cung cấp độ chính xác đến từng pixel. Các mô hình thị giác máy tính như Ultralytics YOLO11 có thể được sử dụng để áp dụng phân đoạn thể hiện cho hình ảnh và video một cách dễ dàng.

__wf_reserved_inherit — Hình 1. Ví dụ về việc sử dụng YOLO11 ví dụ như phân khúc.

‍

Trong hướng dẫn này, chúng tôi sẽ phân tích cách phân đoạn phiên bản hoạt động, ứng dụng của nó và cách Ultralytics YOLO11 có thể được đào tạo tùy chỉnh cho các nhiệm vụ phân đoạn cụ thể.

Phân đoạn thể hiện là gì?

Giả sử có một bức ảnh nhóm những người đang đứng gần nhau. Phát hiện đối tượng có thể giúp vẽ các hộp xung quanh mỗi người, nhưng điều đó không cho bạn biết hình dạng chính xác của họ.

Phân vùng thực thể, mặt khác, tương tự như việc cẩn thận обводить xung quanh mỗi người để bạn có thể nhìn thấy toàn bộ đường viền của họ, ngay cả khi họ chồng lên nhau. Thay vì chỉ đánh dấu vị trí của một vật thể bằng một hộp, nó xác định hình dạng chính xác của từng đối tượng ở cấp độ pixel, giúp bạn dễ dàng hiểu các hình ảnh phức tạp.

Kết quả là một mặt nạ chi tiết lấp đầy hình dạng của một đối tượng, xác định chính xác những pixel nào thuộc về nó. Mức độ chính xác này rất hữu ích trong nhiều ứng dụng thực tế, nơi việc hiểu hình dạng và ranh giới chính xác của các đối tượng là quan trọng.

‍

Phân vùng thực thể so với phân vùng ngữ nghĩa

Trong khi khám phá phân vùng thực thể, bạn có thể bắt gặp khái niệm phân vùng ngữ nghĩa.

Cả hai kỹ thuật đều giúp máy tính hiểu hình ảnh ở cấp độ pixel, nhưng chúng phục vụ các mục đích khác nhau. Phân vùng ngữ nghĩa gán nhãn cho mọi pixel dựa trên danh mục của nó, nhóm tất cả các đối tượng cùng loại lại với nhau. Ví dụ, trong một hình ảnh có nhiều ô tô, phân vùng ngữ nghĩa sẽ đánh dấu tất cả chúng là "ô tô" mà không phân biệt giữa các xe riêng lẻ.

Mặt khác, phân vùng thực thể tiến thêm một bước bằng cách xác định từng đối tượng riêng biệt. Nó gán các nhãn duy nhất cho từng thực thể và tạo ra các mặt nạ chính xác xung quanh hình dạng của chúng. Vì vậy, trong cùng một hình ảnh, phân vùng thực thể sẽ không chỉ gắn nhãn mọi thứ là "ô tô" mà còn nhận ra và обводить từng chiếc ô tô riêng lẻ.

Sự khác biệt chính giữa hai loại là phân vùng ngữ nghĩa nhóm các đối tượng theo danh mục, trong khi phân vùng thực thể phân biệt từng đối tượng là một thực thể duy nhất với ranh giới rõ ràng. Việc chọn tác vụ nào để sử dụng phụ thuộc vào ứng dụng cụ thể - liệu chỉ cần biết những gì có trong một hình ảnh hay quan trọng là phải phân biệt giữa các đối tượng riêng lẻ.

‍

Các mô hình phân đoạn thể hiện phổ biến

Hiện nay, cộng đồng Vision AI có nhiều mô hình phân đoạn thể hiện khác nhau. Một số nhanh hơn, một số chính xác hơn và một số dễ sử dụng hơn.

Những tùy chọn này tuy hữu ích nhưng có thể dẫn đến câu hỏi: lựa chọn nào là phù hợp nhất cho một nhiệm vụ cụ thể? Trong số các tùy chọn, Ultralytics YOLO Các mô hình này khá phổ biến vì chúng tập trung vào tốc độ và độ chính xác.

Ngoài ra, các mô hình này đã phát triển đáng kể qua nhiều năm. Ví dụ, Ultralytics YOLOv5 đã đơn giản hóa việc triển khai bằng cách sử dụng các khuôn khổ như PyTorch , giúp AI thị giác tiên tiến có thể tiếp cận được với nhiều đối tượng hơn mà không cần chuyên môn kỹ thuật sâu.

Dựa trên thành công đó, Ultralytics YOLOv8 đã giới thiệu hỗ trợ nâng cao cho các tác vụ thị giác máy tính như phân đoạn trường hợp, ước tính tư thế và phân loại hình ảnh.

Hiện nay, YOLO11 đưa hiệu suất lên một tầm cao mới. Nó đạt được độ chính xác trung bình cao hơn ( mAP ) trên COCO tập dữ liệu có ít hơn 22% tham số so với YOLOv8m , nghĩa là nó có thể nhận dạng các đối tượng chính xác hơn trong khi sử dụng ít tài nguyên hơn.

‍

Nói một cách đơn giản, YOLO11 mang lại độ chính xác tiên tiến mà không ảnh hưởng đến hiệu quả, trở thành sản phẩm đột phá trong lĩnh vực này.

Tìm hiểu cách instance segmentation hoạt động

Tiếp theo, hãy khám phá cách instance segmentation thường hoạt động. Các mô hình thị giác máy tính cũ hơn sử dụng phương pháp hai bước.

Đầu tiên, họ detect Các đối tượng bằng cách vẽ các khung bao quanh chúng. Sau đó, chúng tạo ra một mặt nạ ở cấp độ pixel để phác thảo hình dạng chính xác của từng đối tượng. Một ví dụ nổi tiếng là Mask R-CNN, được xây dựng dựa trên các mô hình phát hiện đối tượng bằng cách thêm một bước dự đoán mặt nạ. Mặc dù phương pháp này hiệu quả, nhưng nó có thể chậm vì phải xử lý hình ảnh theo nhiều giai đoạn, khiến các ứng dụng thời gian thực trở nên khó khăn hơn.

Trong khi đó, các mô hình như YOLO11 Xử lý hình ảnh cùng một lúc, đồng thời dự đoán các hộp giới hạn đối tượng và mặt nạ phân đoạn thực thể. Phương pháp hợp lý này giúp xử lý nhanh hơn nhiều mà vẫn duy trì độ chính xác cao. Do đó, nó đặc biệt hữu ích cho các ứng dụng thời gian thực như lái xe tự động, phân tích video và robot, nơi cả tốc độ và độ chính xác đều quan trọng.

Đào tạo tùy chỉnh YOLO11 ví dụ như phân khúc

Ra khỏi hộp, YOLO11 Mô hình này được đào tạo trước. Nó đã được đào tạo trên tập dữ liệu COCO -Seg , bao gồm các vật thể hàng ngày, ví dụ như phân đoạn. Tuy nhiên, Ultralytics Python Gói hỗ trợ đào tạo tùy chỉnh, điều này rất cần thiết cho các ứng dụng chuyên biệt trong đó các đối tượng duy nhất cần được phân đoạn.

Tại sao việc huấn luyện tùy chỉnh hoặc tinh chỉnh mô hình lại quan trọng? Huấn luyện tùy chỉnh tận dụng transfer learning bằng cách xây dựng dựa trên kiến thức đã được nhúng trong các mô hình được huấn luyện trước. Thay vì bắt đầu từ đầu, nó điều chỉnh một mô hình hiện có cho các tác vụ mới bằng cách sử dụng các tập dữ liệu nhỏ hơn và ít tài nguyên máy tính hơn, đồng thời vẫn duy trì độ chính xác cao.

Làm thế nào để đào tạo tùy chỉnh YOLO11

Sau đây là cái nhìn sâu hơn về các bước liên quan đến việc tinh chỉnh YOLO11 ví dụ phân khúc:

Chuẩn bị dữ liệu: Thu thập và chú thích hình ảnh dựa trên ứng dụng cụ thể của bạn. Ultralytics cung cấp hỗ trợ cho nhiều tập dữ liệu hình ảnh , nhưng bạn cũng có thể đào tạo bằng tập dữ liệu của riêng mình bằng cách chuẩn bị hình ảnh và chú thích theo yêu cầu YOLO định dạng.
‍
Sử dụng mô hình được đào tạo trước: Thay vì bắt đầu từ đầu, hãy sử dụng mô hình được đào tạo trước Ultralytics YOLO11 người mẫu.
‍
Huấn luyện mô hình: Điều chỉnh các cài đặt huấn luyện quan trọng như kích thước lô (số lượng ảnh được xử lý trên mỗi lần lặp), kích thước ảnh (độ phân giải đầu vào mục tiêu) và số lượng epochs (tổng số chu kỳ huấn luyện) và huấn luyện mô hình.
‍
Đánh giá hiệu suất: Sau khi quá trình đào tạo mô hình hoàn tất, bạn có thể kiểm tra độ chính xác của mô hình bằng các số liệu hiệu suất như mAP . Các Ultralytics Python Gói này cũng cung cấp các chức năng tích hợp để đánh giá mô hình.

Các ứng dụng phân đoạn phiên bản được kích hoạt bởi YOLO11

Phân đoạn thể hiện có thể được sử dụng để giải quyết các thách thức trong thế giới thực bằng cách giúp máy móc nhìn và hiểu các đối tượng chính xác hơn. Từ việc cải thiện tự động hóa đến bảo vệ môi trường, nó đóng một vai trò quan trọng trong nhiều lĩnh vực. Hãy cùng xem qua một số ví dụ về nơi nó đang tạo ra tác động.

An toàn và giám sát công trường xây dựng bằng cách sử dụng YOLO11

Phân đoạn thể hiện có thể là một phần quan trọng để đảm bảo an toàn và hiệu quả tại các công trường xây dựng. Ví dụ: nó có thể được sử dụng để giám sát máy móc hạng nặng.

YOLO11 có thể được tinh chỉnh một cách chính xác segment và xác định các loại thiết bị khác nhau, chẳng hạn như cần cẩu, máy đào và máy ủi, và track vị trí của họ theo thời gian thực. Điều này cho phép người quản lý công trường đảm bảo rằng máy móc hoạt động nghiêm ngặt trong khu vực được chỉ định và không xâm phạm vào khu vực có công nhân hoặc khu vực có nguy hiểm.

Ngoài ra, việc tích hợp các giải pháp như vậy với các hệ thống cảnh báo theo thời gian thực cho phép thực hiện các hành động khắc phục nhanh chóng. Hơn nữa, những hiểu biết thu thập được có thể giúp tối ưu hóa bố cục và quy trình làm việc của trang web, giảm thêm rủi ro và tăng năng suất.

‍

Giám sát động vật bằng phân đoạn và YOLO11

Giám sát hành vi động vật giúp các nhà nghiên cứu, nông dân và nhà bảo tồn chăm sóc động vật tốt hơn trong các môi trường khác nhau. Phân đoạn thể hiện đóng một vai trò hữu ích trong các hệ thống này bằng cách xác định và phân đoạn từng cá thể động vật trong các trang trại, vườn thú và môi trường sống tự nhiên. Không giống như object detection truyền thống sử dụng bounding box, instance segmentation cung cấp một đường viền mức pixel của mỗi con vật, đặc biệt hữu ích khi động vật ở gần nhau.

Phân đoạn chi tiết tạo điều kiện theo dõi chính xác hơn các chuyển động và hành vi. Các động vật chồng chéo hoặc tụ tập gần nhau có thể được nhận diện rõ ràng và cung cấp phân tích chính xác hơn về các tương tác, đánh giá sức khỏe và mô hình hoạt động. Nhìn chung, những hiểu biết sâu sắc hơn về hành vi của động vật sẽ nâng cao việc chăm sóc và quản lý động vật.

‍

YOLO11 trong phân tích thể thao và theo dõi cầu thủ

Theo dõi chính xác người chơi và sự kiện là một phần quan trọng của phân tích thể thao. Các phương pháp theo dõi truyền thống dựa vào việc gắn thẻ thủ công, có thể không nắm bắt được các tương tác chi tiết. Thị giác máy tính có thể được sử dụng để segment các thông tin chi tiết như từng cầu thủ, quả bóng và sự kiện quan trọng ở cấp độ pixel để có được cái nhìn sâu sắc.

Ví dụ, phân đoạn trường hợp có thể giúp detect Các sự kiện như phạm lỗi hoặc va chạm ngoài bóng bằng cách tách biệt rõ ràng từng cầu thủ và vật thể. Việc giám sát chi tiết này được hỗ trợ bởi các mô hình như YOLO11 cung cấp cho các nhà phân tích thông tin rõ ràng hơn để nghiên cứu các mô hình chuyển động, định vị không gian và tương tác với độ chính xác cao. Lợi ích chính của những thông tin chi tiết này là giúp các nhóm tinh chỉnh chiến lược và nâng cao hiệu suất tổng thể.

Ưu và nhược điểm của instance segmentation

Dưới đây là một số lợi ích chính mà instance segmentation có thể mang lại cho các ngành công nghiệp khác nhau:

Cải thiện tự động hóa: Bằng cách tự động hóa các tác vụ như kiểm soát chất lượng và giám sát an toàn, instance segmentation giảm nhu cầu can thiệp thủ công và giảm thiểu lỗi của con người.
‍
Hiểu rõ hơn về bối cảnh: Bằng cách phác thảo chính xác từng đối tượng, phân đoạn thể hiện (instance segmentation) đóng góp vào việc hiểu sâu hơn về các bối cảnh phức tạp, hỗ trợ việc đưa ra quyết định sáng suốt hơn.
‍
Xử lý hậu kỳ hiệu quả: Đầu ra ở cấp độ pixel đơn giản hóa các tác vụ như loại bỏ nền, đếm đối tượng và phân tích không gian, giảm nhu cầu về các bước xử lý bổ sung.

Mặc dù những lợi ích này làm nổi bật tác động của phân đoạn thể hiện đến các trường hợp sử dụng khác nhau, nhưng điều quan trọng là phải xem xét những thách thức liên quan đến việc triển khai nó.

Dưới đây là một số hạn chế chính của phân đoạn thể hiện:

Những thách thức với độ trong suốt: Việc phân đoạn các đối tượng trong suốt hoặc phản chiếu như thủy tinh và nước rất khó, dẫn đến ranh giới không chính xác.
‍
Chi phí bảo trì: Để giữ cho các mô hình chính xác và phù hợp, cần phải cập nhật và tinh chỉnh liên tục khi điều kiện môi trường và bộ dữ liệu thay đổi.
‍
Nỗ lực chú thích cao: Việc đào tạo các mô hình phân đoạn thể hiện đòi hỏi các chú thích chi tiết ở cấp độ pixel, điều này làm tăng đáng kể thời gian và chi phí liên quan đến việc chuẩn bị dữ liệu.

Những điều cần nhớ

Phân đoạn thể hiện giúp có thể phân biệt các đối tượng riêng lẻ một cách chính xác, ngay cả khi chúng chồng lên nhau. Bằng cách nắm bắt ranh giới đối tượng ở cấp độ pixel, nó cung cấp sự hiểu biết sâu sắc hơn về dữ liệu trực quan so với các tác vụ thị giác máy tính truyền thống như phát hiện đối tượng.

Những tiến bộ gần đây trong thị giác máy tính đã giúp việc phân đoạn thực thể nhanh hơn và dễ sử dụng hơn. Đặc biệt, các mô hình thị giác máy tính như Ultralytics YOLO11 đơn giản hóa quy trình, cho phép phân đoạn theo thời gian thực với thiết lập tối thiểu, giúp nhiều ngành và ứng dụng khác nhau dễ tiếp cận hơn.

Bạn tò mò về AI? Hãy truy cập kho lưu trữ GitHub của chúng tôi và kết nối với cộng đồng của chúng tôi để tiếp tục khám phá. Tìm hiểu về những đổi mới như AI trong xe tự lái và Vision AI trong nông nghiệp trên các trang giải pháp của chúng tôi. Xem các tùy chọn cấp phép của chúng tôi và bắt đầu một dự án thị giác máy tính!

Phân vùng thể hiện là gì? Hướng dẫn nhanh

Phân đoạn thể hiện là gì?

Phân vùng thực thể so với phân vùng ngữ nghĩa

Các mô hình phân đoạn thể hiện phổ biến

Tìm hiểu cách instance segmentation hoạt động

Đào tạo tùy chỉnh YOLO11 ví dụ như phân khúc

Làm thế nào để đào tạo tùy chỉnh YOLO11

Các ứng dụng phân đoạn phiên bản được kích hoạt bởi YOLO11

An toàn và giám sát công trường xây dựng bằng cách sử dụng YOLO11

Giám sát động vật bằng phân đoạn và YOLO11

YOLO11 trong phân tích thể thao và theo dõi cầu thủ

Ưu và nhược điểm của instance segmentation

Những điều cần nhớ

Đọc thêm trong danh mục này

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Xử lý ảnh là gì? Giới thiệu ngắn gọn

Đối sánh mẫu là gì? Hướng dẫn nhanh

Hãy cùng nhau xây dựng tương lai
của AI!

Phân vùng thể hiện là gì? Hướng dẫn nhanh

Phân đoạn thể hiện là gì?

Phân vùng thực thể so với phân vùng ngữ nghĩa

Các mô hình phân đoạn thể hiện phổ biến

Tìm hiểu cách instance segmentation hoạt động

Đào tạo tùy chỉnh YOLO11 ví dụ như phân khúc

Làm thế nào để đào tạo tùy chỉnh YOLO11

Các ứng dụng phân đoạn phiên bản được kích hoạt bởi YOLO11

An toàn và giám sát công trường xây dựng bằng cách sử dụng YOLO11

Giám sát động vật bằng phân đoạn và YOLO11

YOLO11 trong phân tích thể thao và theo dõi cầu thủ

Ưu và nhược điểm của instance segmentation

Những điều cần nhớ

Đọc thêm trong danh mục này

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Xử lý ảnh là gì? Giới thiệu ngắn gọn

Đối sánh mẫu là gì? Hướng dẫn nhanh

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!