Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Phân vùng thể hiện là gì? Hướng dẫn nhanh

Abirami Vina

6 phút đọc

6 tháng 3, 2025

Hãy cùng chúng tôi xem xét kỹ hơn về phân vùng thể hiện là gì, cách thức hoạt động, việc sử dụng nó trong các ứng dụng thị giác máy tính khác nhau và tác động của nó.

Các ứng dụng thị giác máy tính ngày càng trở nên phổ biến hơn trong cuộc sống hàng ngày của chúng ta, từ camera giao thông giám sát tình trạng đường xá đến hệ thống tự thanh toán trong các cửa hàng. Bằng cách cho phép máy móc hiểu dữ liệu trực quan theo cách tương tự như con người, Thị giác AI đang tạo ra tác động trong một loạt các ngành công nghiệp.

Nhiều ứng dụng trong số này dựa vào phát hiện đối tượng, một tác vụ thị giác máy tính đặt các hộp giới hạn xung quanh các đối tượng chính trong hình ảnh. Mặc dù phương pháp này thường hoạt động tốt, nhưng một số giải pháp phân tích hình ảnh thậm chí còn cần độ chính xác cao hơn.

Ví dụ: hình ảnh y tế, đòi hỏi nhiều hơn là chỉ phát hiện một khối u - điều quan trọng là phải phác thảo hình dạng chính xác của nó. Tương tự, trong robot học, máy móc cần nhận ra các đường viền chính xác của một vật thể để nắm bắt nó một cách chính xác. Để giải quyết những thách thức này, phân vùng thể hiện cung cấp một giải pháp chính xác hơn.

Phân vùng thể hiện là một tác vụ thị giác máy tính được thiết kế để hỗ trợ các trường hợp sử dụng mà việc phát hiện đối tượng là không đủ - nó cung cấp độ chính xác ở cấp độ pixel. Các mô hình thị giác máy tính như Ultralytics YOLO11 có thể được sử dụng để áp dụng phân vùng thể hiện cho hình ảnh và video một cách dễ dàng. 

__wf_reserved_inherit
Hình 1. Ví dụ về việc sử dụng YOLO11 để phân vùng thực thể.

Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách phân vùng thực thể hoạt động, các ứng dụng của nó và cách Ultralytics YOLO11 có thể được huấn luyện tùy chỉnh cho các tác vụ phân vùng cụ thể.

Phân đoạn thể hiện là gì?

Giả sử có một bức ảnh nhóm những người đang đứng gần nhau. Phát hiện đối tượng có thể giúp vẽ các hộp xung quanh mỗi người, nhưng điều đó không cho bạn biết hình dạng chính xác của họ. 

Phân vùng thực thể, mặt khác, tương tự như việc cẩn thận обводить xung quanh mỗi người để bạn có thể nhìn thấy toàn bộ đường viền của họ, ngay cả khi họ chồng lên nhau. Thay vì chỉ đánh dấu vị trí của một vật thể bằng một hộp, nó xác định hình dạng chính xác của từng đối tượng ở cấp độ pixel, giúp bạn dễ dàng hiểu các hình ảnh phức tạp.

Kết quả là một mặt nạ chi tiết lấp đầy hình dạng của một đối tượng, xác định chính xác những pixel nào thuộc về nó. Mức độ chính xác này rất hữu ích trong nhiều ứng dụng thực tế, nơi việc hiểu hình dạng và ranh giới chính xác của các đối tượng là quan trọng.

__wf_reserved_inherit
Hình 2. Giới thiệu khả năng hỗ trợ phân vùng thực thể của YOLO11.

Phân vùng thực thể so với phân vùng ngữ nghĩa

Trong khi khám phá phân vùng thực thể, bạn có thể bắt gặp khái niệm phân vùng ngữ nghĩa.

Cả hai kỹ thuật đều giúp máy tính hiểu hình ảnh ở cấp độ pixel, nhưng chúng phục vụ các mục đích khác nhau. Phân vùng ngữ nghĩa gán nhãn cho mọi pixel dựa trên danh mục của nó, nhóm tất cả các đối tượng cùng loại lại với nhau. Ví dụ, trong một hình ảnh có nhiều ô tô, phân vùng ngữ nghĩa sẽ đánh dấu tất cả chúng là "ô tô" mà không phân biệt giữa các xe riêng lẻ.

Mặt khác, phân vùng thực thể tiến thêm một bước bằng cách xác định từng đối tượng riêng biệt. Nó gán các nhãn duy nhất cho từng thực thể và tạo ra các mặt nạ chính xác xung quanh hình dạng của chúng. Vì vậy, trong cùng một hình ảnh, phân vùng thực thể sẽ không chỉ gắn nhãn mọi thứ là "ô tô" mà còn nhận ra và обводить từng chiếc ô tô riêng lẻ.

Sự khác biệt chính giữa hai loại là phân vùng ngữ nghĩa nhóm các đối tượng theo danh mục, trong khi phân vùng thực thể phân biệt từng đối tượng là một thực thể duy nhất với ranh giới rõ ràng. Việc chọn tác vụ nào để sử dụng phụ thuộc vào ứng dụng cụ thể - liệu chỉ cần biết những gì có trong một hình ảnh hay quan trọng là phải phân biệt giữa các đối tượng riêng lẻ.

__wf_reserved_inherit
Hình 3. Phân vùng thực thể so với phân vùng ngữ nghĩa (bên phải và bên trái, tương ứng).

Các mô hình phân đoạn thể hiện phổ biến

Hiện nay, cộng đồng Vision AI có nhiều mô hình phân đoạn thể hiện khác nhau. Một số nhanh hơn, một số chính xác hơn và một số dễ sử dụng hơn. 

Những lựa chọn này tuy hữu ích nhưng có thể dẫn đến câu hỏi, lựa chọn nào phù hợp để sử dụng cho một nhiệm vụ cụ thể? Trong số các lựa chọn, các mô hình Ultralytics YOLO khá phổ biến vì chúng tập trung vào tốc độ và độ chính xác. 

Ngoài ra, các mô hình này đã phát triển đáng kể trong những năm qua. Ví dụ: Ultralytics YOLOv5 đã đơn giản hóa việc triển khai bằng cách sử dụng các framework như PyTorch, giúp AI thị giác tiên tiến trở nên dễ tiếp cận hơn với nhiều đối tượng hơn mà không đòi hỏi chuyên môn kỹ thuật sâu.

Dựa trên thành công đó, Ultralytics YOLOv8 đã giới thiệu khả năng hỗ trợ nâng cao cho các tác vụ thị giác máy tính như phân đoạn thể hiện, ước tính tư thế và phân loại hình ảnh. 

Giờ đây, YOLO11 đưa hiệu suất lên một tầm cao mới. Nó đạt được độ chính xác trung bình (mAP) cao hơn trên tập dữ liệu COCO với số lượng tham số ít hơn 22% so với YOLOv8m, có nghĩa là nó có thể nhận dạng các đối tượng chính xác hơn trong khi sử dụng ít tài nguyên hơn.

__wf_reserved_inherit
Hình 4. Điểm chuẩn YOLO11.

Nói một cách đơn giản, YOLO11 mang lại độ chính xác tối tân mà không ảnh hưởng đến hiệu quả, tạo nên một bước đột phá trong lĩnh vực này.

Tìm hiểu cách instance segmentation hoạt động

Tiếp theo, hãy khám phá cách instance segmentation thường hoạt động. Các mô hình thị giác máy tính cũ hơn sử dụng phương pháp hai bước. 

Đầu tiên, chúng phát hiện các đối tượng bằng cách vẽ các khung giới hạn xung quanh chúng. Sau đó, chúng tạo ra một mặt nạ ở cấp độ pixel để phác thảo hình dạng chính xác của mỗi đối tượng. Một ví dụ nổi tiếng là Mask R-CNN, được xây dựng dựa trên các mô hình object detection bằng cách thêm một bước dự đoán mặt nạ. Mặc dù phương pháp này hiệu quả, nhưng nó có thể chậm vì nó xử lý hình ảnh qua nhiều giai đoạn, gây khó khăn hơn cho các ứng dụng thời gian thực.

Trong khi đó, các mô hình như YOLO11 xử lý hình ảnh một cách nhanh chóng, đồng thời dự đoán các khung giới hạn đối tượng và mặt nạ instance segmentation. Cách tiếp cận hợp lý này làm cho nó nhanh hơn nhiều trong khi vẫn duy trì độ chính xác cao. Do đó, nó đặc biệt hữu ích cho các ứng dụng thời gian thực như lái xe tự động, phân tích video và robot, nơi cả tốc độ và độ chính xác đều rất quan trọng.

Tùy chỉnh huấn luyện YOLO11 cho instance segmentation

Ngay khi xuất xưởng, YOLO11 đã có sẵn dưới dạng mô hình được huấn luyện trước. Nó đã được huấn luyện trên tập dữ liệu COCO-Seg, bao gồm các đối tượng hàng ngày cho instance segmentation. Tuy nhiên, gói Ultralytics Python hỗ trợ huấn luyện tùy chỉnh, điều này rất cần thiết cho các ứng dụng chuyên biệt, nơi cần phân đoạn các đối tượng duy nhất.

Tại sao việc huấn luyện tùy chỉnh hoặc tinh chỉnh mô hình lại quan trọng? Huấn luyện tùy chỉnh tận dụng transfer learning bằng cách xây dựng dựa trên kiến thức đã được nhúng trong các mô hình được huấn luyện trước. Thay vì bắt đầu từ đầu, nó điều chỉnh một mô hình hiện có cho các tác vụ mới bằng cách sử dụng các tập dữ liệu nhỏ hơn và ít tài nguyên máy tính hơn, đồng thời vẫn duy trì độ chính xác cao.

Cách huấn luyện tùy chỉnh YOLO11

Dưới đây là cái nhìn cận cảnh hơn về các bước liên quan đến việc tinh chỉnh YOLO11 cho phân đoạn thể hiện: 

  • Chuẩn bị dữ liệu: Thu thập và gán nhãn hình ảnh dựa trên ứng dụng cụ thể của bạn. Ultralytics hỗ trợ nhiều bộ dữ liệu hình ảnh, nhưng bạn cũng có thể huấn luyện bằng bộ dữ liệu của riêng mình bằng cách chuẩn bị hình ảnh và chú thích ở định dạng YOLO cần thiết.
  • Sử dụng mô hình được huấn luyện trước: Thay vì bắt đầu từ đầu, hãy sử dụng mô hình Ultralytics YOLO11 đã được huấn luyện trước. 
  • Huấn luyện mô hình: Điều chỉnh các cài đặt huấn luyện quan trọng như kích thước lô (số lượng ảnh được xử lý trên mỗi lần lặp), kích thước ảnh (độ phân giải đầu vào mục tiêu) và số lượng epochs (tổng số chu kỳ huấn luyện) và huấn luyện mô hình. 
  • Đánh giá hiệu suất: Sau khi hoàn thành huấn luyện mô hình, bạn có thể kiểm tra độ chính xác của mô hình bằng các số liệu hiệu suất như mAP. Gói Python Ultralytics cũng cung cấp các hàm dựng sẵn để đánh giá mô hình.

Các ứng dụng phân đoạn thể hiện được hỗ trợ bởi YOLO11

Phân đoạn thể hiện có thể được sử dụng để giải quyết các thách thức trong thế giới thực bằng cách giúp máy móc nhìn và hiểu các đối tượng chính xác hơn. Từ việc cải thiện tự động hóa đến bảo vệ môi trường, nó đóng một vai trò quan trọng trong nhiều lĩnh vực. Hãy cùng xem qua một số ví dụ về nơi nó đang tạo ra tác động.

An toàn và giám sát công trường xây dựng bằng YOLO11

Phân đoạn thể hiện có thể là một phần quan trọng để đảm bảo an toàn và hiệu quả tại các công trường xây dựng. Ví dụ: nó có thể được sử dụng để giám sát máy móc hạng nặng. 

YOLO11 có thể được tinh chỉnh để phân đoạn và xác định chính xác các loại thiết bị khác nhau, chẳng hạn như cần cẩu, máy xúc và xe ủi đất, đồng thời theo dõi vị trí của chúng trong thời gian thực. Điều này cho phép các nhà quản lý trang web đảm bảo rằng máy móc hoạt động nghiêm ngặt trong các khu vực được chỉ định và không xâm phạm vào các khu vực có công nhân hoặc các mối nguy hiểm tồn tại. 

Ngoài ra, việc tích hợp các giải pháp như vậy với các hệ thống cảnh báo theo thời gian thực cho phép thực hiện các hành động khắc phục nhanh chóng. Hơn nữa, những hiểu biết thu thập được có thể giúp tối ưu hóa bố cục và quy trình làm việc của trang web, giảm thêm rủi ro và tăng năng suất.

__wf_reserved_inherit
Hình 5. Giám sát máy móc hạng nặng bằng YOLO11.

Giám sát động vật bằng phân đoạn và YOLO11

Giám sát hành vi động vật giúp các nhà nghiên cứu, nông dân và nhà bảo tồn chăm sóc động vật tốt hơn trong các môi trường khác nhau. Phân đoạn thể hiện đóng một vai trò hữu ích trong các hệ thống này bằng cách xác định và phân đoạn từng cá thể động vật trong các trang trại, vườn thú và môi trường sống tự nhiên. Không giống như object detection truyền thống sử dụng bounding box, instance segmentation cung cấp một đường viền mức pixel của mỗi con vật, đặc biệt hữu ích khi động vật ở gần nhau.

Phân đoạn chi tiết tạo điều kiện theo dõi chính xác hơn các chuyển động và hành vi. Các động vật chồng chéo hoặc tụ tập gần nhau có thể được nhận diện rõ ràng và cung cấp phân tích chính xác hơn về các tương tác, đánh giá sức khỏe và mô hình hoạt động. Nhìn chung, những hiểu biết sâu sắc hơn về hành vi của động vật sẽ nâng cao việc chăm sóc và quản lý động vật.

__wf_reserved_inherit
Hình 6. Giám sát gia súc bằng instance segmentation.

YOLO11 trong phân tích thể thao và theo dõi người chơi

Theo dõi chính xác người chơi và sự kiện là một phần rất quan trọng trong phân tích thể thao. Các phương pháp theo dõi truyền thống dựa vào gắn thẻ thủ công, có thể không nắm bắt được các tương tác chi tiết. Thị giác máy tính có thể được sử dụng để phân đoạn các chi tiết như từng người chơi, quả bóng và sự kiện quan trọng ở cấp độ pixel để có được những hiểu biết chi tiết.

Ví dụ: instance segmentation có thể giúp phát hiện các sự kiện như lỗi hoặc các sự cố ngoài bóng bằng cách tách biệt rõ ràng từng người chơi và đối tượng. Giám sát chi tiết này được kích hoạt bởi các mô hình như YOLO11 cung cấp cho các nhà phân tích thông tin rõ ràng hơn để nghiên cứu các kiểu chuyển động, định vị không gian và tương tác với độ chính xác cao. Một lợi ích quan trọng của những hiểu biết này là chúng giúp các đội tinh chỉnh chiến lược của họ và nâng cao hiệu suất tổng thể.

Ưu và nhược điểm của instance segmentation

Dưới đây là một số lợi ích chính mà instance segmentation có thể mang lại cho các ngành công nghiệp khác nhau:

  • Cải thiện tự động hóa: Bằng cách tự động hóa các tác vụ như kiểm soát chất lượng và giám sát an toàn, instance segmentation giảm nhu cầu can thiệp thủ công và giảm thiểu lỗi của con người.
  • Hiểu rõ hơn về bối cảnh: Bằng cách phác thảo chính xác từng đối tượng, phân đoạn thể hiện (instance segmentation) đóng góp vào việc hiểu sâu hơn về các bối cảnh phức tạp, hỗ trợ việc đưa ra quyết định sáng suốt hơn.
  • Xử lý hậu kỳ hiệu quả: Đầu ra ở cấp độ pixel đơn giản hóa các tác vụ như loại bỏ nền, đếm đối tượng và phân tích không gian, giảm nhu cầu về các bước xử lý bổ sung.

Mặc dù những lợi ích này làm nổi bật tác động của phân đoạn thể hiện đến các trường hợp sử dụng khác nhau, nhưng điều quan trọng là phải xem xét những thách thức liên quan đến việc triển khai nó. 

Dưới đây là một số hạn chế chính của phân đoạn thể hiện:

  • Những thách thức với độ trong suốt: Việc phân đoạn các đối tượng trong suốt hoặc phản chiếu như thủy tinh và nước rất khó, dẫn đến ranh giới không chính xác.
  • Chi phí bảo trì: Để giữ cho các mô hình chính xác và phù hợp, cần phải cập nhật và tinh chỉnh liên tục khi điều kiện môi trường và bộ dữ liệu thay đổi.
  • Nỗ lực chú thích cao: Việc đào tạo các mô hình phân đoạn thể hiện đòi hỏi các chú thích chi tiết ở cấp độ pixel, điều này làm tăng đáng kể thời gian và chi phí liên quan đến việc chuẩn bị dữ liệu.

Những điều cần nhớ

Phân đoạn thể hiện giúp có thể phân biệt các đối tượng riêng lẻ một cách chính xác, ngay cả khi chúng chồng lên nhau. Bằng cách nắm bắt ranh giới đối tượng ở cấp độ pixel, nó cung cấp sự hiểu biết sâu sắc hơn về dữ liệu trực quan so với các tác vụ thị giác máy tính truyền thống như phát hiện đối tượng.

Những tiến bộ gần đây trong thị giác máy tính đã giúp phân đoạn thể hiện nhanh hơn và dễ sử dụng hơn. Đặc biệt, các mô hình thị giác máy tính như Ultralytics YOLO11 đơn giản hóa quy trình, cho phép phân đoạn theo thời gian thực với thiết lập tối thiểu, giúp nó dễ tiếp cận hơn đối với nhiều ngành và ứng dụng khác nhau.

Bạn tò mò về AI? Hãy truy cập kho lưu trữ GitHub của chúng tôi và kết nối với cộng đồng của chúng tôi để tiếp tục khám phá. Tìm hiểu về những đổi mới như AI trong xe tự láiVision AI trong nông nghiệp trên các trang giải pháp của chúng tôi. Xem các tùy chọn cấp phép của chúng tôi và bắt đầu một dự án thị giác máy tính!

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard