Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phân vùng thể hiện (Instance Segmentation)

Khám phá cách phân đoạn thể hiện (instance segmentation) tinh chỉnh khả năng phát hiện đối tượng với độ chính xác ở cấp độ pixel, cho phép tạo mặt nạ đối tượng chi tiết cho các ứng dụng AI.

Phân đoạn thể hiện là một kỹ thuật thị giác máy tính (CV) tinh vi, giúp nhận dạng, định vị và phân định các đối tượng riêng lẻ trong một hình ảnh ở cấp độ pixel. Không giống như phát hiện đối tượng , vốn ước lượng vị trí của đối tượng bằng một khung giới hạn hình chữ nhật, phân đoạn thể hiện tạo ra một mặt nạ chính xác, phác thảo hình dạng chính xác của từng đối tượng riêng biệt. Mức độ chi tiết này cho phép hệ thống phân biệt giữa nhiều thể hiện của cùng một lớp—chẳng hạn như tách hai chiếc xe chồng chéo hoặc từng người trong đám đông—khiến nó trở thành một thành phần quan trọng trong các ứng dụng trí tuệ nhân tạo (AI) tiên tiến.

Sự khác biệt so với các nhiệm vụ liên quan

Để hiểu đầy đủ về phân đoạn trường hợp, sẽ hữu ích khi so sánh nó với các tác vụ thị giác máy tính cơ bản khác:

  • Phân đoạn ngữ nghĩa : Nhiệm vụ này phân loại từng pixel trong ảnh thành một danh mục (ví dụ: "bầu trời", "đường", "người") nhưng không phân biệt giữa các đối tượng riêng lẻ. Tất cả các pixel thuộc lớp "ô tô" được nhóm lại với nhau, nghĩa là nó không thể phân biệt một chiếc ô tô với một chiếc ô tô khác.
  • Phát hiện Đối tượng : Nhiệm vụ này phát hiện sự hiện diện và vị trí của các đối tượng, bao quanh chúng trong các khung giới hạn. Mặc dù nó phân biệt được các trường hợp riêng lẻ (ví dụ: Xe A so với Xe B), nhưng không nắm bắt được hình dạng hoặc ranh giới của chúng.
  • Phân đoạn toàn cảnh : Kết hợp những ưu điểm của cả hai phương pháp, gán nhãn lớp cho từng pixel (ngữ nghĩa) đồng thời xác định duy nhất từng trường hợp đối tượng (trường hợp), mang lại sự hiểu biết toàn diện về bối cảnh.

Phân đoạn thực thể kết hợp hiệu quả khả năng định vị của phát hiện đối tượng với độ chính xác ở cấp độ pixel của phân đoạn ngữ nghĩa.

Cách thức hoạt động

Các mô hình phân đoạn thực thể thường sử dụng kiến trúc học sâu (DL) , cụ thể là Mạng Nơ-ron Tích chập (CNN) , để trích xuất các đặc điểm từ hình ảnh. Quá trình này thường bao gồm hai bước song song:

  1. Định vị : Mô hình dự đoán lớp và tọa độ hộp giới hạn cho từng đối tượng.
  2. Tạo mặt nạ : Đồng thời, mô hình dự đoán mặt nạ nhị phân trong vùng được phát hiện, xác định chính xác pixel nào thuộc về đối tượng.

Các phương pháp tiếp cận ban đầu như Mask R-CNN sử dụng quy trình hai giai đoạn, đầu tiên là tạo đề xuất vùng và sau đó tinh chỉnh chúng. Các kiến trúc hiện đại, chẳng hạn như Ultralytics YOLO11 , đã cách mạng hóa quy trình này bằng cách thực hiện phát hiện và phân đoạn trong một giai đoạn duy nhất. Điều này cho phép suy luận theo thời gian thực , giúp segment các đối tượng trong luồng video trực tiếp với tốc độ và độ chính xác cao.

Các Ứng dụng Thực tế

Khả năng phát hiện ranh giới chính xác do phân đoạn trường hợp mang lại là điều không thể thiếu trong nhiều ngành công nghiệp khác nhau:

  • Phân tích hình ảnh y tế : Trong chăm sóc sức khỏe, việc xác định chính xác thể tích và hình dạng của các bất thường là rất quan trọng. Phân đoạn mẫu được sử dụng để phân định khối u trên phim chụp MRI hoặc đếm từng tế bào dưới kính hiển vi, hỗ trợ chẩn đoán chính xác và lập kế hoạch điều trị.
  • Xe tự hành : Xe tự lái sử dụng công nghệ này để hiểu các bối cảnh đường xá phức tạp. Bằng cách đào tạo trên các tập dữ liệu như Cityscapes , xe có thể phân biệt giữa mặt đường có thể di chuyển, người đi bộ và các phương tiện khác, đảm bảo điều hướng an toàn ngay cả trong môi trường đông đúc.
  • Nông nghiệp chính xác : Nông dân sử dụng công nghệ phân đoạn để theo dõi sức khỏe cây trồng. Robot được trang bị hệ thống thị giác có thể xác định từng loại cỏ dại trong số các loại cây trồng để phun thuốc diệt cỏ hoặc hướng dẫn cánh tay robot thu hoạch các loại trái cây như dâu tây bằng cách nhận dạng chính xác đường viền của chúng.
  • Kỹ thuật robot : Để robot tương tác với môi trường, chẳng hạn như lấy một vật thể cụ thể từ thùng chứa, nó phải hiểu được hướng và hình dạng của vật thể đó. Phân đoạn thực thể cung cấp dữ liệu hình học cần thiết cho việc thao tác thành công.

Triển khai phân đoạn phiên bản

Các nhà phát triển có thể dễ dàng triển khai phân đoạn phiên bản bằng cách sử dụng ultralytics Python gói. Thư viện hỗ trợ YOLO11 các mô hình được đào tạo trước trên COCO tập dữ liệu, có thể detect Và segment 80 loại đối tượng phổ biến có sẵn.

Sau đây là một ví dụ ngắn gọn về cách tải mô hình và chạy phân đoạn trên hình ảnh:

from ultralytics import YOLO

# Load a pre-trained YOLO11 instance segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference on an image
# The model predicts classes, boxes, and masks simultaneously
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the results with masks plotted
results[0].show()

Đối với người dùng muốn áp dụng điều này vào dữ liệu của riêng mình, khuôn khổ này hỗ trợ đào tạo trên các tập dữ liệu tùy chỉnh , cho phép mô hình học các lớp mới dành riêng cho các ứng dụng chuyên biệt.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay