Phân vùng thể hiện (Instance Segmentation)
Khám phá cách phân đoạn thể hiện (instance segmentation) tinh chỉnh khả năng phát hiện đối tượng với độ chính xác ở cấp độ pixel, cho phép tạo mặt nạ đối tượng chi tiết cho các ứng dụng AI.
Phân đoạn thể hiện là một nhiệm vụ thị giác máy tính (CV) nâng cao, xác định và phân định các đối tượng riêng lẻ trong một hình ảnh ở cấp độ pixel. Không giống như các nhiệm vụ thị giác khác, nó không chỉ phân loại một hình ảnh hoặc vẽ một khung giới hạn xung quanh các đối tượng; thay vào đó, nó tạo ra một mặt nạ chính xác theo từng pixel cho mỗi thể hiện đối tượng riêng biệt. Kỹ thuật này cung cấp sự hiểu biết sâu sắc hơn nhiều về một cảnh, vì nó có thể phân biệt giữa các đối tượng trùng lặp của cùng một lớp.
Phân đoạn thể hiện so với Phân đoạn ngữ nghĩa và Phát hiện đối tượng
Điều quan trọng là phải phân biệt phân vùng thể hiện (instance segmentation) với các tác vụ thị giác máy tính liên quan khác.
- Phát hiện đối tượng: Nhiệm vụ này xác định sự hiện diện và vị trí của các đối tượng, thường bằng cách vẽ các hộp giới hạn hình chữ nhật xung quanh chúng và gán một nhãn lớp. Nó trả lời "Cái gì có trong hình ảnh và nó ở đâu?" nhưng không cung cấp thông tin về hình dạng.
- Phân Vùng Ngữ Nghĩa (Semantic Segmentation): Tác vụ này phân loại mỗi pixel trong một hình ảnh vào một danh mục cụ thể. Ví dụ: nó sẽ gán nhãn tất cả các pixel thuộc về ô tô là "ô tô", nhưng nó sẽ không phân biệt giữa hai chiếc ô tô khác nhau trong hình ảnh. Nó trả lời câu hỏi "Mỗi pixel thuộc về danh mục nào?"
- Phân vùng thực thể (Instance Segmentation): Kết hợp khả năng của object detection và semantic segmentation. Nó phát hiện từng thực thể đối tượng và tạo ra một mặt nạ phân vùng duy nhất cho nó. Trong một hình ảnh có ba chiếc xe, instance segmentation sẽ xuất ra ba mặt nạ riêng biệt, mỗi mặt nạ tương ứng với một chiếc xe cụ thể.
- Phân Vùng Toàn Cảnh (Panoptic Segmentation): Đây là nhiệm vụ phân vùng toàn diện nhất, kết hợp phân vùng ngữ nghĩa và phân vùng thể hiện. Nó gán cho mỗi pixel một nhãn lớp và một ID thể hiện duy nhất, cung cấp một sự hiểu biết đầy đủ, thống nhất về cảnh.
Cách thức hoạt động của Phân vùng thực thể
Các mô hình phân đoạn thể hiện thường thực hiện hai chức năng chính: đầu tiên, chúng phát hiện tất cả các thể hiện đối tượng trong một hình ảnh và thứ hai, chúng tạo ra một mặt nạ phân đoạn cho mỗi thể hiện được phát hiện. Quá trình này đã được phổ biến rộng rãi bởi các kiến trúc như Mask R-CNN, mở rộng các trình phát hiện đối tượng như Faster R-CNN bằng cách thêm một nhánh song song dự đoán một mặt nạ nhị phân cho mỗi vùng quan tâm. Các mô hình hiện đại đã tinh chỉnh thêm quy trình này để có tốc độ và độ chính xác tốt hơn, cho phép suy luận theo thời gian thực trong nhiều ứng dụng. Phát triển thường dựa vào các khung học sâu mạnh mẽ như PyTorch và TensorFlow.
Các Ứng dụng Thực tế
Các đường viền đối tượng chi tiết được cung cấp bởi instance segmentation rất có giá trị trong nhiều lĩnh vực.
- Xe tự hành: Xe tự lái dựa vào phân vùng thể hiện (instance segmentation) để xác định chính xác hình dạng và vị trí của từng người đi bộ, phương tiện và người đi xe đạp. Chi tiết dạng hạt này rất quan trọng để điều hướng và lập kế hoạch đường đi an toàn, đặc biệt là trong môi trường đô thị phức tạp với nhiều đối tượng chồng lên nhau. Các bộ dữ liệu như Cityscapes đã đóng vai trò quan trọng trong việc thúc đẩy lĩnh vực này.
- Phân tích hình ảnh y tế: Trong радиолог, phân vùng thể hiện được sử dụng để phân định các khối u, tổn thương và cơ quan từ ảnh chụp CT hoặc MRI với độ chính xác cao. Điều này giúp bác sĩ đo kích thước của khối u, lên kế hoạch phẫu thuật và theo dõi hiệu quả điều trị. Bạn có thể tìm hiểu thêm về điều này trong bài đăng trên blog của chúng tôi về sử dụng YOLO11 để phát hiện khối u.
- Robot học: Robot sử dụng phân đoạn thể hiện để hiểu môi trường của chúng, xác định các đối tượng cụ thể để nắm bắt và tránh chướng ngại vật với độ chính xác cao hơn. Điều này rất quan trọng đối với các tác vụ trong sản xuất và logistics.
- Satellite Imagery Analysis (Phân tích ảnh vệ tinh): Kỹ thuật này được sử dụng để đếm các cây riêng lẻ trong rừng, lập bản đồ các tòa nhà trong thành phố hoặc theo dõi những thay đổi trong việc sử dụng đất theo thời gian với dữ liệu từ các tổ chức như NASA.
- Nông nghiệp (Agriculture): Nó có thể được sử dụng để xác định và đếm các loại trái cây riêng lẻ để ước tính năng suất hoặc phát hiện các loại cỏ dại cụ thể để ứng dụng thuốc diệt cỏ có mục tiêu, một phần quan trọng của nông nghiệp chính xác (precision agriculture).
Phân đoạn thể hiện (Instance Segmentation) với Ultralytics YOLO
Ultralytics cung cấp các mô hình hiện đại có khả năng thực hiện phân vùng thể hiện (instance segmentation) hiệu quả. Các mô hình như YOLOv8 và YOLO11 mới nhất được thiết kế để mang lại hiệu suất cao trên nhiều tác vụ thị giác máy tính, bao gồm phân vùng thể hiện. Bạn có thể tìm thêm chi tiết trong tài liệu về tác vụ phân vùng (segmentation) của chúng tôi. Người dùng có thể tận dụng các mô hình được huấn luyện trước hoặc thực hiện tinh chỉnh (fine-tuning) trên bộ dữ liệu (datasets) tùy chỉnh như COCO bằng cách sử dụng các công cụ như nền tảng Ultralytics HUB, nền tảng này giúp đơn giản hóa quy trình máy học (ML) từ quản lý dữ liệu đến triển khai mô hình (model deployment). Để triển khai thực tế, các tài nguyên như hướng dẫn của chúng tôi về phân vùng (segmentation) với các mô hình Ultralytics YOLOv8 được huấn luyện trước hoặc hướng dẫn của chúng tôi về cô lập các đối tượng phân vùng (segmentation) luôn sẵn có. Bạn cũng có thể tìm hiểu cách sử dụng Ultralytics YOLO11 để phân vùng thể hiện (instance segmentation).