Instance segmentation là gì? Hướng dẫn nhanh
Hãy tham gia cùng chúng tôi để tìm hiểu kỹ hơn về instance segmentation là gì, cách thức hoạt động, các ứng dụng trong thị giác máy tính và tác động mà nó mang lại.

Các ứng dụng Computer vision ngày càng trở nên phổ biến trong đời sống hàng ngày của chúng ta, từ camera giao thông giám sát điều kiện đường bộ cho đến hệ thống tự thanh toán trong các cửa hàng. Bằng cách cho phép máy móc hiểu dữ liệu hình ảnh tương tự như con người, thị giác AI đang tạo ra tác động trong nhiều lĩnh vực công nghiệp khác nhau.
Nhiều ứng dụng trong số này dựa vào object detection, một computer vision task đặt các hộp giới hạn (bounding box) xung quanh các đối tượng chính trong hình ảnh. Mặc dù phương pháp này thường hoạt động tốt, nhưng một số giải pháp phân tích hình ảnh cần độ chính xác cao hơn nữa.
Ví dụ, chẩn đoán hình ảnh y tế đòi hỏi nhiều hơn là chỉ phát hiện khối u - việc phác thảo chính xác hình dạng của nó là rất quan trọng. Tương tự, trong robot học, máy móc cần nhận diện các đường bao chính xác của một đối tượng để gắp nó đúng cách. Để giải quyết những thách thức này, instance segmentation cung cấp một giải pháp chính xác hơn.
Instance segmentation là một computer vision task được thiết kế để hỗ trợ các trường hợp sử dụng mà việc phát hiện đối tượng là chưa đủ - nó cung cấp độ chính xác ở cấp độ pixel. Các computer vision model như Ultralytics YOLO11 có thể được sử dụng để áp dụng instance segmentation cho hình ảnh và video một cách dễ dàng.

Fig 1. Ví dụ về việc sử dụng YOLO11 cho instance segmentation.
Trong hướng dẫn này, chúng ta sẽ phân tích cách instance segmentation hoạt động, các ứng dụng của nó và cách Ultralytics YOLO11 có thể được huấn luyện tùy chỉnh cho các tác vụ phân đoạn cụ thể.
Link to this sectionInstance segmentation là gì?#
Giả sử có một bức ảnh chụp nhóm người đứng gần nhau. Object detection có thể giúp vẽ các khung xung quanh mỗi người, nhưng điều đó không cho bạn biết hình dạng chính xác của họ.
Instance segmentation, mặt khác, tương tự như việc vẽ đường bao cẩn thận xung quanh mỗi người để bạn có thể thấy đường viền đầy đủ của họ, ngay cả khi họ bị chồng lấp. Thay vì chỉ đánh dấu nơi nào đó bằng một cái hộp, nó xác định hình dạng chính xác của từng đối tượng ở cấp độ pixel, giúp dễ dàng hiểu các hình ảnh phức tạp hơn.
Kết quả là một mặt nạ (mask) chi tiết lấp đầy hình dạng của một đối tượng, xác định chính xác những pixel nào thuộc về đối tượng đó. Mức độ chính xác này rất hữu ích trong nhiều ứng dụng thực tế nơi việc hiểu hình dạng và ranh giới chính xác của đối tượng là rất quan trọng.

Fig 2. Trình diễn hỗ trợ của YOLO11 cho instance segmentation.
Link to this sectionInstance segmentation so với semantic segmentation#
Trong khi tìm hiểu về instance segmentation, bạn có thể bắt gặp khái niệm semantic segmentation.
Cả hai kỹ thuật đều giúp máy tính hiểu hình ảnh ở cấp độ pixel, nhưng chúng phục vụ các mục đích khác nhau. Semantic segmentation dán nhãn mọi pixel dựa trên danh mục của nó, nhóm tất cả các đối tượng cùng loại lại với nhau. Ví dụ, trong một hình ảnh có nhiều xe hơi, semantic segmentation sẽ đánh dấu tất cả chúng là "car" mà không phân biệt giữa các phương tiện riêng lẻ.
Instance segmentation, mặt khác, tiến thêm một bước bằng cách xác định từng đối tượng riêng biệt. Nó gán các nhãn duy nhất cho từng thực thể và tạo ra các mặt nạ chính xác xung quanh hình dạng của chúng. Vì vậy, trong cùng một hình ảnh, instance segmentation sẽ không chỉ dán nhãn mọi thứ là "car" mà sẽ nhận diện và phác thảo từng chiếc xe một cách riêng lẻ.
Sự khác biệt chính giữa hai loại là semantic segmentation nhóm các đối tượng theo danh mục, trong khi instance segmentation phân biệt từng đối tượng như một thực thể duy nhất với các ranh giới rõ ràng. Việc lựa chọn tác vụ nào để sử dụng phụ thuộc vào ứng dụng cụ thể - liệu chỉ cần biết cái gì có trong hình ảnh hay quan trọng là phải phân biệt được các đối tượng riêng lẻ.

Fig 3. Instance segmentation so với semantic segmentation (phải và trái, tương ứng).
Link to this sectionCác model instance segmentation phổ biến#
Hiện nay có nhiều model instance segmentation dành cho cộng đồng thị giác AI. Một số nhanh hơn, một số chính xác hơn và một số dễ sử dụng hơn.
Những lựa chọn này dù hữu ích nhưng có thể dẫn đến câu hỏi, đâu là lựa chọn đúng để sử dụng cho một tác vụ cụ thể? Trong số các tùy chọn, các model Ultralytics YOLO khá phổ biến vì chúng tập trung vào tốc độ và độ chính xác.
Ngoài ra, các model này đã phát triển đáng kể qua nhiều năm. Ví dụ, Ultralytics YOLOv5 đã đơn giản hóa việc triển khai bằng cách sử dụng các framework như PyTorch, giúp thị giác AI tiên tiến tiếp cận được với nhiều đối tượng hơn mà không đòi hỏi chuyên môn kỹ thuật sâu.
Tiếp nối thành công đó, Ultralytics YOLOv8 đã giới thiệu hỗ trợ nâng cao cho các computer vision task như instance segmentation, pose estimation và image classification.
Giờ đây, YOLO11 đưa hiệu suất lên một tầm cao mới. Nó đạt được mAP (mean average precision) cao hơn trên dataset COCO với ít hơn 22% tham số so với YOLOv8m, nghĩa là nó có thể nhận diện đối tượng chính xác hơn trong khi sử dụng ít tài nguyên hơn.

Fig 4. Đánh giá YOLO11.
Nói một cách đơn giản, YOLO11 mang lại độ chính xác hiện đại mà không ảnh hưởng đến hiệu quả, biến nó thành một yếu tố thay đổi cuộc chơi trong lĩnh vực này.
Link to this sectionHiểu cách thức hoạt động của instance segmentation#
Tiếp theo, hãy khám phá cách thức hoạt động thường thấy của instance segmentation. Các computer vision model cũ hơn sử dụng phương pháp hai bước.
Đầu tiên, chúng phát hiện đối tượng bằng cách vẽ các bounding box xung quanh chúng. Sau đó, chúng tạo ra một mặt nạ ở cấp độ pixel để phác thảo hình dạng chính xác của mỗi đối tượng. Một ví dụ nổi tiếng là Mask R-CNN, được xây dựng dựa trên các model object detection bằng cách thêm bước dự đoán mặt nạ. Mặc dù phương pháp này hiệu quả, nhưng nó có thể chậm vì xử lý hình ảnh theo nhiều giai đoạn, khiến các ứng dụng thời gian thực trở nên khó khăn hơn.
Trong khi đó, các model như YOLO11 xử lý hình ảnh trong một lần, đồng thời dự đoán bounding box của đối tượng và các mặt nạ instance segmentation. Phương pháp tinh gọn này giúp nó nhanh hơn nhiều trong khi vẫn duy trì độ chính xác cao. Kết quả là, nó đặc biệt hữu ích cho các ứng dụng thời gian thực như xe tự lái, phân tích video và robot, nơi cả tốc độ và độ chính xác đều quan trọng.
Link to this sectionHuấn luyện tùy chỉnh YOLO11 cho instance segmentation#
Ngay khi xuất xưởng, YOLO11 là một pre-trained model. Nó đã được huấn luyện trên COCO-Seg dataset, bao gồm các đối tượng hàng ngày cho instance segmentation. Tuy nhiên, gói Python của Ultralytics hỗ trợ huấn luyện tùy chỉnh, điều này rất cần thiết cho các ứng dụng chuyên biệt nơi cần phân đoạn các đối tượng độc đáo.
Tại sao việc huấn luyện tùy chỉnh hoặc tinh chỉnh (fine-tuning) một model lại quan trọng? Custom training tận dụng transfer learning bằng cách xây dựng dựa trên kiến thức đã được nhúng sẵn trong các pre-trained model. Thay vì bắt đầu từ đầu, nó điều chỉnh một model hiện có cho các tác vụ mới bằng cách sử dụng các dataset nhỏ hơn và ít tài nguyên tính toán hơn, tất cả trong khi vẫn duy trì độ chính xác cao.
Link to this sectionCách huấn luyện tùy chỉnh YOLO11#
Dưới đây là cái nhìn sâu hơn về các bước liên quan đến việc tinh chỉnh YOLO11 cho instance segmentation:
- Chuẩn bị dữ liệu: Thu thập và chú thích hình ảnh dựa trên ứng dụng cụ thể của bạn. Ultralytics cung cấp hỗ trợ cho nhiều image datasets, nhưng bạn cũng có thể huấn luyện bằng cách sử dụng dataset của riêng mình bằng cách chuẩn bị hình ảnh và chú thích theo định dạng YOLO yêu cầu.
- Sử dụng pre-trained model: Thay vì bắt đầu từ đầu, hãy sử dụng một pre-trained Ultralytics YOLO11 model.
- Huấn luyện model: Điều chỉnh các cài đặt huấn luyện quan trọng như batch size (số hình ảnh được xử lý trên mỗi vòng lặp), image size (độ phân giải đầu vào mục tiêu) và epochs (tổng số chu kỳ huấn luyện) và bắt đầu huấn luyện model.
- Đánh giá hiệu suất: Sau khi huấn luyện model hoàn tất, bạn có thể kiểm tra độ chính xác của model bằng các số liệu hiệu suất như mAP. Gói Python của Ultralytics cũng cung cấp các hàm tích hợp sẵn để đánh giá model.
Link to this sectionCác ứng dụng instance segmentation được kích hoạt bởi YOLO11#
Instance segmentation có thể được sử dụng để giải quyết các thách thức trong thế giới thực bằng cách giúp máy móc nhìn và hiểu đối tượng chính xác hơn. Từ việc cải thiện tự động hóa đến bảo vệ môi trường, nó đóng vai trò then chốt trong nhiều lĩnh vực. Hãy cùng xem qua một số ví dụ về nơi nó đang tạo ra tác động.
Link to this sectionAn toàn và giám sát công trường xây dựng bằng YOLO11#
Instance segmentation có thể là một phần quan trọng trong việc đảm bảo an toàn và hiệu quả tại các công trường xây dựng. Ví dụ, nó có thể được sử dụng để giám sát máy móc hạng nặng.
YOLO11 có thể được tinh chỉnh để phân đoạn và nhận diện chính xác các loại thiết bị khác nhau, chẳng hạn như cần cẩu, máy xúc và máy ủi, cũng như theo dõi vị trí của chúng trong thời gian thực. Điều này cho phép quản lý công trường đảm bảo rằng máy móc hoạt động nghiêm ngặt trong các khu vực được chỉ định và không xâm lấn vào các khu vực có công nhân hoặc có nguy cơ gây nguy hiểm.
Ngoài ra, việc tích hợp các giải pháp như vậy với hệ thống cảnh báo thời gian thực cho phép thực hiện các hành động khắc phục nhanh chóng. Ngoài ra, những thông tin chi tiết được thu thập có thể giúp tối ưu hóa bố cục công trường và quy trình làm việc, giảm thiểu rủi ro và tăng năng suất.

Fig 5. Giám sát máy móc hạng nặng bằng YOLO11.
Link to this sectionGiám sát động vật với phân đoạn và YOLO11#
Giám sát hành vi động vật giúp các nhà nghiên cứu, nông dân và những người bảo tồn chăm sóc động vật tốt hơn trong các môi trường khác nhau. Instance segmentation đóng một vai trò hữu ích trong các hệ thống này bằng cách nhận diện và phân đoạn từng cá thể động vật trong trang trại, sở thú và môi trường sống tự nhiên. Khác với object detection truyền thống sử dụng bounding box, instance segmentation cung cấp sự phác thảo ở cấp độ pixel của mỗi con vật, điều này đặc biệt hữu ích khi các con vật ở gần nhau.
Việc phân đoạn chi tiết tạo điều kiện cho việc theo dõi chuyển động và hành vi chính xác hơn. Động vật chồng lấp hoặc tập trung gần nhau có thể được nhận diện rõ rệt, mang lại phân tích chính xác hơn về các tương tác, đánh giá sức khỏe và các kiểu hoạt động. Nhìn chung, những hiểu biết sâu sắc hơn về hành vi động vật giúp tăng cường các biện pháp chăm sóc và quản lý động vật.

Fig 6. Giám sát gia súc bằng instance segmentation.
Link to this sectionYOLO11 trong phân tích thể thao và theo dõi cầu thủ#
Việc theo dõi chính xác cầu thủ và sự kiện là một phần quan trọng của phân tích thể thao. Các phương pháp theo dõi truyền thống dựa vào việc gắn thẻ thủ công, điều này có thể không nắm bắt được các tương tác chi tiết. Computer vision có thể được sử dụng để phân đoạn các chi tiết như từng cầu thủ, quả bóng và sự kiện chính ở cấp độ pixel để có được những thông tin chuyên sâu chi tiết.
Ví dụ, instance segmentation có thể giúp phát hiện các sự kiện như lỗi hoặc các sự cố ngoài bóng bằng cách tách biệt rõ ràng từng cầu thủ và đối tượng. Việc giám sát chi tiết này được kích hoạt bởi các model như YOLO11 cung cấp cho các nhà phân tích thông tin rõ ràng hơn để nghiên cứu các kiểu chuyển động, vị trí không gian và các tương tác với độ chính xác cao. Một lợi ích chính của những thông tin này là chúng giúp các đội cải thiện chiến lược và nâng cao hiệu suất tổng thể.
Link to this sectionƯu điểm và nhược điểm của instance segmentation#
Dưới đây là một số lợi ích chính mà instance segmentation có thể mang lại cho các ngành công nghiệp khác nhau:
- Cải thiện tự động hóa: Bằng cách tự động hóa các tác vụ như kiểm soát chất lượng và giám sát an toàn, instance segmentation giảm nhu cầu can thiệp thủ công và giảm thiểu lỗi của con người.
- Hiểu rõ hơn về khung cảnh: Bằng cách phác thảo chính xác từng đối tượng, instance segmentation góp phần hiểu sâu hơn về các cảnh phức tạp, hỗ trợ ra quyết định sáng suốt hơn.
- Xử lý hậu kỳ hiệu quả: Đầu ra ở cấp độ pixel đơn giản hóa các tác vụ như xóa nền, đếm đối tượng và phân tích không gian, giảm nhu cầu về các bước xử lý bổ sung.
Mặc dù những lợi ích này làm nổi bật cách instance segmentation ảnh hưởng đến các trường hợp sử dụng khác nhau, nhưng cũng cần phải xem xét các thách thức liên quan đến việc triển khai nó.
Dưới đây là một số hạn chế chính của instance segmentation:
- Thách thức với sự trong suốt: Việc phân đoạn các đối tượng trong suốt hoặc phản chiếu như thủy tinh và nước rất khó khăn, dẫn đến các ranh giới không chính xác.
- Chi phí duy trì: Để giữ cho các model chính xác và phù hợp, cần liên tục cập nhật và tinh chỉnh khi các điều kiện môi trường và dataset thay đổi.
- Nỗ lực chú thích cao: Huấn luyện các model instance segmentation đòi hỏi các chú thích chi tiết ở cấp độ pixel, điều này làm tăng đáng kể thời gian và chi phí liên quan đến việc chuẩn bị dữ liệu.
Link to this sectionCác điểm chính cần lưu ý#
Instance segmentation giúp phân biệt các đối tượng riêng lẻ một cách chính xác, ngay cả khi chúng chồng lấp. Bằng cách nắm bắt các ranh giới đối tượng ở cấp độ pixel, nó cung cấp sự hiểu biết sâu sắc hơn về dữ liệu hình ảnh so với các computer vision task truyền thống như object detection.
Những tiến bộ gần đây trong computer vision đã làm cho instance segmentation nhanh hơn và dễ sử dụng hơn. Cụ thể, các computer vision model như Ultralytics YOLO11 đơn giản hóa quy trình, cho phép phân đoạn thời gian thực với thiết lập tối thiểu, giúp nó dễ tiếp cận hơn đối với nhiều ngành công nghiệp và ứng dụng.
Tò mò về AI? Hãy truy cập our GitHub repository và kết nối với our community để tiếp tục khám phá. Tìm hiểu về các đổi mới như AI in self-driving cars và vision AI in agriculture trên các trang giải pháp của chúng tôi. Hãy kiểm tra our licensing options và bắt đầu dự án computer vision của bạn!






