Hãy cùng chúng tôi xem xét kỹ hơn về phân vùng thể hiện là gì, cách thức hoạt động, việc sử dụng nó trong các ứng dụng thị giác máy tính khác nhau và tác động của nó.

Hãy cùng chúng tôi xem xét kỹ hơn về phân vùng thể hiện là gì, cách thức hoạt động, việc sử dụng nó trong các ứng dụng thị giác máy tính khác nhau và tác động của nó.

Các ứng dụng thị giác máy tính ngày càng trở nên phổ biến hơn trong cuộc sống hàng ngày của chúng ta, từ camera giao thông giám sát tình trạng đường xá đến hệ thống tự thanh toán trong các cửa hàng. Bằng cách cho phép máy móc hiểu dữ liệu trực quan theo cách tương tự như con người, Thị giác AI đang tạo ra tác động trong một loạt các ngành công nghiệp.
Nhiều ứng dụng trong số này dựa vào phát hiện đối tượng, một tác vụ thị giác máy tính đặt các hộp giới hạn xung quanh các đối tượng chính trong hình ảnh. Mặc dù phương pháp này thường hoạt động tốt, nhưng một số giải pháp phân tích hình ảnh thậm chí còn cần độ chính xác cao hơn.
Ví dụ: hình ảnh y tế, đòi hỏi nhiều hơn là chỉ phát hiện một khối u - điều quan trọng là phải phác thảo hình dạng chính xác của nó. Tương tự, trong robot học, máy móc cần nhận ra các đường viền chính xác của một vật thể để nắm bắt nó một cách chính xác. Để giải quyết những thách thức này, phân vùng thể hiện cung cấp một giải pháp chính xác hơn.
Phân đoạn thể hiện là một tác vụ thị giác máy tính được thiết kế để hỗ trợ các trường hợp sử dụng mà việc phát hiện đối tượng là chưa đủ - nó cung cấp độ chính xác đến từng pixel. Các mô hình thị giác máy tính như Ultralytics YOLO11 có thể được sử dụng để áp dụng phân đoạn thể hiện cho hình ảnh và video một cách dễ dàng.

Trong hướng dẫn này, chúng tôi sẽ phân tích cách phân đoạn phiên bản hoạt động, ứng dụng của nó và cách Ultralytics YOLO11 có thể được đào tạo tùy chỉnh cho các nhiệm vụ phân đoạn cụ thể.
Giả sử có một bức ảnh nhóm những người đang đứng gần nhau. Phát hiện đối tượng có thể giúp vẽ các hộp xung quanh mỗi người, nhưng điều đó không cho bạn biết hình dạng chính xác của họ.
Phân vùng thực thể, mặt khác, tương tự như việc cẩn thận обводить xung quanh mỗi người để bạn có thể nhìn thấy toàn bộ đường viền của họ, ngay cả khi họ chồng lên nhau. Thay vì chỉ đánh dấu vị trí của một vật thể bằng một hộp, nó xác định hình dạng chính xác của từng đối tượng ở cấp độ pixel, giúp bạn dễ dàng hiểu các hình ảnh phức tạp.
Kết quả là một mặt nạ chi tiết lấp đầy hình dạng của một đối tượng, xác định chính xác những pixel nào thuộc về nó. Mức độ chính xác này rất hữu ích trong nhiều ứng dụng thực tế, nơi việc hiểu hình dạng và ranh giới chính xác của các đối tượng là quan trọng.

Trong khi khám phá phân vùng thực thể, bạn có thể bắt gặp khái niệm phân vùng ngữ nghĩa.
Cả hai kỹ thuật đều giúp máy tính hiểu hình ảnh ở cấp độ pixel, nhưng chúng phục vụ các mục đích khác nhau. Phân vùng ngữ nghĩa gán nhãn cho mọi pixel dựa trên danh mục của nó, nhóm tất cả các đối tượng cùng loại lại với nhau. Ví dụ, trong một hình ảnh có nhiều ô tô, phân vùng ngữ nghĩa sẽ đánh dấu tất cả chúng là "ô tô" mà không phân biệt giữa các xe riêng lẻ.
Mặt khác, phân vùng thực thể tiến thêm một bước bằng cách xác định từng đối tượng riêng biệt. Nó gán các nhãn duy nhất cho từng thực thể và tạo ra các mặt nạ chính xác xung quanh hình dạng của chúng. Vì vậy, trong cùng một hình ảnh, phân vùng thực thể sẽ không chỉ gắn nhãn mọi thứ là "ô tô" mà còn nhận ra và обводить từng chiếc ô tô riêng lẻ.
Sự khác biệt chính giữa hai loại là phân vùng ngữ nghĩa nhóm các đối tượng theo danh mục, trong khi phân vùng thực thể phân biệt từng đối tượng là một thực thể duy nhất với ranh giới rõ ràng. Việc chọn tác vụ nào để sử dụng phụ thuộc vào ứng dụng cụ thể - liệu chỉ cần biết những gì có trong một hình ảnh hay quan trọng là phải phân biệt giữa các đối tượng riêng lẻ.

Hiện nay, cộng đồng Vision AI có nhiều mô hình phân đoạn thể hiện khác nhau. Một số nhanh hơn, một số chính xác hơn và một số dễ sử dụng hơn.
Những tùy chọn này tuy hữu ích nhưng có thể dẫn đến câu hỏi: lựa chọn nào là phù hợp nhất cho một nhiệm vụ cụ thể? Trong số các tùy chọn, Ultralytics YOLO Các mô hình này khá phổ biến vì chúng tập trung vào tốc độ và độ chính xác.
Ngoài ra, các mô hình này đã phát triển đáng kể qua nhiều năm. Ví dụ, Ultralytics YOLOv5 đã đơn giản hóa việc triển khai bằng cách sử dụng các khuôn khổ như PyTorch , giúp AI thị giác tiên tiến có thể tiếp cận được với nhiều đối tượng hơn mà không cần chuyên môn kỹ thuật sâu.
Dựa trên thành công đó, Ultralytics YOLOv8 đã giới thiệu hỗ trợ nâng cao cho các tác vụ thị giác máy tính như phân đoạn trường hợp, ước tính tư thế và phân loại hình ảnh.
Hiện nay, YOLO11 đưa hiệu suất lên một tầm cao mới. Nó đạt được độ chính xác trung bình cao hơn ( mAP ) trên COCO tập dữ liệu có ít hơn 22% tham số so với YOLOv8m , nghĩa là nó có thể nhận dạng các đối tượng chính xác hơn trong khi sử dụng ít tài nguyên hơn.

Nói một cách đơn giản, YOLO11 mang lại độ chính xác tiên tiến mà không ảnh hưởng đến hiệu quả, trở thành sản phẩm đột phá trong lĩnh vực này.
Tiếp theo, hãy khám phá cách instance segmentation thường hoạt động. Các mô hình thị giác máy tính cũ hơn sử dụng phương pháp hai bước.
Đầu tiên, họ detect Các đối tượng bằng cách vẽ các khung bao quanh chúng. Sau đó, chúng tạo ra một mặt nạ ở cấp độ pixel để phác thảo hình dạng chính xác của từng đối tượng. Một ví dụ nổi tiếng là Mask R-CNN, được xây dựng dựa trên các mô hình phát hiện đối tượng bằng cách thêm một bước dự đoán mặt nạ. Mặc dù phương pháp này hiệu quả, nhưng nó có thể chậm vì phải xử lý hình ảnh theo nhiều giai đoạn, khiến các ứng dụng thời gian thực trở nên khó khăn hơn.
Trong khi đó, các mô hình như YOLO11 Xử lý hình ảnh cùng một lúc, đồng thời dự đoán các hộp giới hạn đối tượng và mặt nạ phân đoạn thực thể. Phương pháp hợp lý này giúp xử lý nhanh hơn nhiều mà vẫn duy trì độ chính xác cao. Do đó, nó đặc biệt hữu ích cho các ứng dụng thời gian thực như lái xe tự động, phân tích video và robot, nơi cả tốc độ và độ chính xác đều quan trọng.
Ra khỏi hộp, YOLO11 Mô hình này được đào tạo trước. Nó đã được đào tạo trên tập dữ liệu COCO -Seg , bao gồm các vật thể hàng ngày, ví dụ như phân đoạn. Tuy nhiên, Ultralytics Python Gói hỗ trợ đào tạo tùy chỉnh, điều này rất cần thiết cho các ứng dụng chuyên biệt trong đó các đối tượng duy nhất cần được phân đoạn.
Tại sao việc huấn luyện tùy chỉnh hoặc tinh chỉnh mô hình lại quan trọng? Huấn luyện tùy chỉnh tận dụng transfer learning bằng cách xây dựng dựa trên kiến thức đã được nhúng trong các mô hình được huấn luyện trước. Thay vì bắt đầu từ đầu, nó điều chỉnh một mô hình hiện có cho các tác vụ mới bằng cách sử dụng các tập dữ liệu nhỏ hơn và ít tài nguyên máy tính hơn, đồng thời vẫn duy trì độ chính xác cao.
Sau đây là cái nhìn sâu hơn về các bước liên quan đến việc tinh chỉnh YOLO11 ví dụ phân khúc:
Phân đoạn thể hiện có thể được sử dụng để giải quyết các thách thức trong thế giới thực bằng cách giúp máy móc nhìn và hiểu các đối tượng chính xác hơn. Từ việc cải thiện tự động hóa đến bảo vệ môi trường, nó đóng một vai trò quan trọng trong nhiều lĩnh vực. Hãy cùng xem qua một số ví dụ về nơi nó đang tạo ra tác động.
Phân đoạn thể hiện có thể là một phần quan trọng để đảm bảo an toàn và hiệu quả tại các công trường xây dựng. Ví dụ: nó có thể được sử dụng để giám sát máy móc hạng nặng.
YOLO11 có thể được tinh chỉnh một cách chính xác segment và xác định các loại thiết bị khác nhau, chẳng hạn như cần cẩu, máy đào và máy ủi, và track vị trí của họ theo thời gian thực. Điều này cho phép người quản lý công trường đảm bảo rằng máy móc hoạt động nghiêm ngặt trong khu vực được chỉ định và không xâm phạm vào khu vực có công nhân hoặc khu vực có nguy hiểm.
Ngoài ra, việc tích hợp các giải pháp như vậy với các hệ thống cảnh báo theo thời gian thực cho phép thực hiện các hành động khắc phục nhanh chóng. Hơn nữa, những hiểu biết thu thập được có thể giúp tối ưu hóa bố cục và quy trình làm việc của trang web, giảm thêm rủi ro và tăng năng suất.

Giám sát hành vi động vật giúp các nhà nghiên cứu, nông dân và nhà bảo tồn chăm sóc động vật tốt hơn trong các môi trường khác nhau. Phân đoạn thể hiện đóng một vai trò hữu ích trong các hệ thống này bằng cách xác định và phân đoạn từng cá thể động vật trong các trang trại, vườn thú và môi trường sống tự nhiên. Không giống như object detection truyền thống sử dụng bounding box, instance segmentation cung cấp một đường viền mức pixel của mỗi con vật, đặc biệt hữu ích khi động vật ở gần nhau.
Phân đoạn chi tiết tạo điều kiện theo dõi chính xác hơn các chuyển động và hành vi. Các động vật chồng chéo hoặc tụ tập gần nhau có thể được nhận diện rõ ràng và cung cấp phân tích chính xác hơn về các tương tác, đánh giá sức khỏe và mô hình hoạt động. Nhìn chung, những hiểu biết sâu sắc hơn về hành vi của động vật sẽ nâng cao việc chăm sóc và quản lý động vật.

Theo dõi chính xác người chơi và sự kiện là một phần quan trọng của phân tích thể thao. Các phương pháp theo dõi truyền thống dựa vào việc gắn thẻ thủ công, có thể không nắm bắt được các tương tác chi tiết. Thị giác máy tính có thể được sử dụng để segment các thông tin chi tiết như từng cầu thủ, quả bóng và sự kiện quan trọng ở cấp độ pixel để có được cái nhìn sâu sắc.
Ví dụ, phân đoạn trường hợp có thể giúp detect Các sự kiện như phạm lỗi hoặc va chạm ngoài bóng bằng cách tách biệt rõ ràng từng cầu thủ và vật thể. Việc giám sát chi tiết này được hỗ trợ bởi các mô hình như YOLO11 cung cấp cho các nhà phân tích thông tin rõ ràng hơn để nghiên cứu các mô hình chuyển động, định vị không gian và tương tác với độ chính xác cao. Lợi ích chính của những thông tin chi tiết này là giúp các nhóm tinh chỉnh chiến lược và nâng cao hiệu suất tổng thể.
Dưới đây là một số lợi ích chính mà instance segmentation có thể mang lại cho các ngành công nghiệp khác nhau:
Mặc dù những lợi ích này làm nổi bật tác động của phân đoạn thể hiện đến các trường hợp sử dụng khác nhau, nhưng điều quan trọng là phải xem xét những thách thức liên quan đến việc triển khai nó.
Dưới đây là một số hạn chế chính của phân đoạn thể hiện:
Phân đoạn thể hiện giúp có thể phân biệt các đối tượng riêng lẻ một cách chính xác, ngay cả khi chúng chồng lên nhau. Bằng cách nắm bắt ranh giới đối tượng ở cấp độ pixel, nó cung cấp sự hiểu biết sâu sắc hơn về dữ liệu trực quan so với các tác vụ thị giác máy tính truyền thống như phát hiện đối tượng.
Những tiến bộ gần đây trong thị giác máy tính đã giúp việc phân đoạn thực thể nhanh hơn và dễ sử dụng hơn. Đặc biệt, các mô hình thị giác máy tính như Ultralytics YOLO11 đơn giản hóa quy trình, cho phép phân đoạn theo thời gian thực với thiết lập tối thiểu, giúp nhiều ngành và ứng dụng khác nhau dễ tiếp cận hơn.
Bạn tò mò về AI? Hãy truy cập kho lưu trữ GitHub của chúng tôi và kết nối với cộng đồng của chúng tôi để tiếp tục khám phá. Tìm hiểu về những đổi mới như AI trong xe tự lái và Vision AI trong nông nghiệp trên các trang giải pháp của chúng tôi. Xem các tùy chọn cấp phép của chúng tôi và bắt đầu một dự án thị giác máy tính!