Tìm hiểu cách phân đoạn tương tác sử dụng các lời nhắc có sự tham gia của con người để tách biệt các đối tượng. Khám phá cách sử dụng Ultralytics YOLO26 và Ultralytics Nền tảng cho các tác vụ.
Phân đoạn tương tác là một phương pháp thị giác máy tính mang tính hợp tác cao, trong đó người dùng cung cấp đầu vào liên tục hoặc một lần duy nhất—chẳng hạn như nhấp chuột, hộp giới hạn hoặc lời nhắc văn bản—để hướng dẫn mô hình AI phân lập các đối tượng cụ thể trong một hình ảnh. Không giống như các phương pháp hoàn toàn tự động, kỹ thuật có sự tham gia của con người này cho phép người dùng xác định chính xác những gì cần được phân đoạn, điều này làm cho nó đặc biệt có giá trị khi xử lý dữ liệu hình ảnh mơ hồ, các đối tượng chồng chéo hoặc các lớp chưa từng thấy. Trong vài năm qua, sự ra đời của các mô hình nền tảng đã cải thiện đáng kể tốc độ và độ chính xác của quy trình này, biến nó thành một công cụ thiết yếu cho việc chú thích dữ liệu và xử lý hình ảnh chính xác.
Về bản chất, quy trình làm việc dựa trên phân đoạn khái niệm có thể được nhắc nhở , trong đó mô hình diễn giải hướng dẫn của người dùng để tạo ra mặt nạ hoàn hảo đến từng pixel. Người dùng có thể nhấp chuột "tích cực" vào đối tượng ở phía trước mà họ muốn chọn và nhấp chuột "tiêu cực" vào các vùng nền mà họ muốn loại trừ. Các mô hình tiên tiến như Mô hình Phân đoạn Bất kỳ ( SAM ) và các phiên bản kế nhiệm của nó, Meta SAM 3 , tiến xa hơn bằng cách chấp nhận nhiều loại cử chỉ [1], hộp giới hạn và thậm chí cả mô tả văn bản để hỗ trợ tìm kiếm trực quan. Mô hình tính toán ranh giới tối ưu dựa trên các lời nhắc này và người dùng có thể tinh chỉnh mặt nạ lặp đi lặp lại bằng các lần nhấp chuột bổ sung cho đến khi đạt được độ chính xác mong muốn.
Phân khúc tương tác đang làm thay đổi quy trình làm việc trong nhiều ngành công nghiệp bằng cách kết hợp chuyên môn của con người với hiệu quả của trí tuệ nhân tạo.
Mặc dù cả hai khái niệm đều liên quan đến việc phân tách các đối tượng ở cấp độ pixel, nhưng chúng phục vụ các mục đích hoạt động khác nhau. Phân đoạn đối tượng thường là một quy trình hoàn toàn tự động, trong đó một mô hình, chẳng hạn như Ultralytics YOLO26 , phát hiện và khoanh vùng các lớp được xác định trước (ví dụ: "ô tô", "người", "chó") mà không cần sự can thiệp của người dùng. Bạn có thể tìm hiểu thêm về cách thức hoạt động này trong hướng dẫn của chúng tôi về phân đoạn đối tượng .
Ngược lại, phân đoạn tương tác không hoàn toàn dựa vào các lớp được định nghĩa trước. Nó không phụ thuộc vào lớp, nghĩa là nó phân đoạn bất cứ thứ gì người dùng chỉ vào, khiến nó trở nên rất phù hợp với các quy trình học tập chủ động, nơi cần nhanh chóng chú thích các đối tượng mới và thêm chúng vào các tập dữ liệu tùy chỉnh bằng các công cụ như Nền tảng Ultralytics .
Bạn có thể dễ dàng triển khai phân đoạn tương tác trong các dự án của mình bằng cách sử dụng
PyTorch và ultralytics Python gói. Trong ví dụ này, chúng ta sử dụng FastSAM ĐẾN segment Xác định một đối tượng cụ thể bằng cách cung cấp lời nhắc về khung bao quanh.
from ultralytics import FastSAM
# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")
# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])
# Display the segmented result on screen
results[0].show()
Đoạn mã này minh họa cách một gợi ý không gian đơn giản trực tiếp hướng dẫn mô hình cô lập vùng quan tâm, giúp đơn giản hóa các tác vụ phân đoạn hình ảnh phức tạp với lượng mã tối thiểu.
Bắt đầu hành trình của bạn với tương lai của học máy