Khám phá cách phân đoạn thể hiện (instance segmentation) tinh chỉnh khả năng phát hiện đối tượng với độ chính xác ở cấp độ pixel, cho phép tạo mặt nạ đối tượng chi tiết cho các ứng dụng AI.
Phân đoạn thể hiện là một kỹ thuật thị giác máy tính (CV) tinh vi, giúp nhận dạng, định vị và phân định các đối tượng riêng lẻ trong một hình ảnh ở cấp độ pixel. Không giống như phát hiện đối tượng , vốn ước lượng vị trí của đối tượng bằng một khung giới hạn hình chữ nhật, phân đoạn thể hiện tạo ra một mặt nạ chính xác, phác thảo hình dạng chính xác của từng đối tượng riêng biệt. Mức độ chi tiết này cho phép hệ thống phân biệt giữa nhiều thể hiện của cùng một lớp—chẳng hạn như tách hai chiếc xe chồng chéo hoặc từng người trong đám đông—khiến nó trở thành một thành phần quan trọng trong các ứng dụng trí tuệ nhân tạo (AI) tiên tiến.
Để hiểu đầy đủ về phân đoạn trường hợp, sẽ hữu ích khi so sánh nó với các tác vụ thị giác máy tính cơ bản khác:
Phân đoạn thực thể kết hợp hiệu quả khả năng định vị của phát hiện đối tượng với độ chính xác ở cấp độ pixel của phân đoạn ngữ nghĩa.
Các mô hình phân đoạn thực thể thường sử dụng kiến trúc học sâu (DL) , cụ thể là Mạng Nơ-ron Tích chập (CNN) , để trích xuất các đặc điểm từ hình ảnh. Quá trình này thường bao gồm hai bước song song:
Các phương pháp tiếp cận ban đầu như Mask R-CNN sử dụng quy trình hai giai đoạn, đầu tiên là tạo đề xuất vùng và sau đó tinh chỉnh chúng. Các kiến trúc hiện đại, chẳng hạn như Ultralytics YOLO11 , đã cách mạng hóa quy trình này bằng cách thực hiện phát hiện và phân đoạn trong một giai đoạn duy nhất. Điều này cho phép suy luận theo thời gian thực , giúp segment các đối tượng trong luồng video trực tiếp với tốc độ và độ chính xác cao.
Khả năng phát hiện ranh giới chính xác do phân đoạn trường hợp mang lại là điều không thể thiếu trong nhiều ngành công nghiệp khác nhau:
Các nhà phát triển có thể dễ dàng triển khai phân đoạn phiên bản bằng cách sử dụng ultralytics Python gói. Thư viện hỗ trợ YOLO11 các mô hình được đào tạo trước trên
COCO tập dữ liệu, có thể detect Và segment 80 loại đối tượng phổ biến có sẵn.
Sau đây là một ví dụ ngắn gọn về cách tải mô hình và chạy phân đoạn trên hình ảnh:
from ultralytics import YOLO
# Load a pre-trained YOLO11 instance segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference on an image
# The model predicts classes, boxes, and masks simultaneously
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the results with masks plotted
results[0].show()
Đối với người dùng muốn áp dụng điều này vào dữ liệu của riêng mình, khuôn khổ này hỗ trợ đào tạo trên các tập dữ liệu tùy chỉnh , cho phép mô hình học các lớp mới dành riêng cho các ứng dụng chuyên biệt.