Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phân đoạn tương tác

Tìm hiểu cách phân đoạn tương tác sử dụng các lời nhắc có sự tham gia của con người để tách biệt các đối tượng. Khám phá cách sử dụng Ultralytics YOLO26 và Ultralytics Nền tảng cho các tác vụ.

Phân đoạn tương tác là một phương pháp thị giác máy tính mang tính hợp tác cao, trong đó người dùng cung cấp đầu vào liên tục hoặc một lần duy nhất—chẳng hạn như nhấp chuột, hộp giới hạn hoặc lời nhắc văn bản—để hướng dẫn mô hình AI phân lập các đối tượng cụ thể trong một hình ảnh. Không giống như các phương pháp hoàn toàn tự động, kỹ thuật có sự tham gia của con người này cho phép người dùng xác định chính xác những gì cần được phân đoạn, điều này làm cho nó đặc biệt có giá trị khi xử lý dữ liệu hình ảnh mơ hồ, các đối tượng chồng chéo hoặc các lớp chưa từng thấy. Trong vài năm qua, sự ra đời của các mô hình nền tảng đã cải thiện đáng kể tốc độ và độ chính xác của quy trình này, biến nó thành một công cụ thiết yếu cho việc chú thích dữ liệu và xử lý hình ảnh chính xác.

Cách thức hoạt động của phân đoạn tương tác

Về bản chất, quy trình làm việc dựa trên phân đoạn khái niệm có thể được nhắc nhở , trong đó mô hình diễn giải hướng dẫn của người dùng để tạo ra mặt nạ hoàn hảo đến từng pixel. Người dùng có thể nhấp chuột "tích cực" vào đối tượng ở phía trước mà họ muốn chọn và nhấp chuột "tiêu cực" vào các vùng nền mà họ muốn loại trừ. Các mô hình tiên tiến như Mô hình Phân đoạn Bất kỳ ( SAM ) và các phiên bản kế nhiệm của nó, Meta SAM 3 , tiến xa hơn bằng cách chấp nhận nhiều loại cử chỉ [1], hộp giới hạn và thậm chí cả mô tả văn bản để hỗ trợ tìm kiếm trực quan. Mô hình tính toán ranh giới tối ưu dựa trên các lời nhắc này và người dùng có thể tinh chỉnh mặt nạ lặp đi lặp lại bằng các lần nhấp chuột bổ sung cho đến khi đạt được độ chính xác mong muốn.

Các Ứng dụng Thực tế

Phân khúc tương tác đang làm thay đổi quy trình làm việc trong nhiều ngành công nghiệp bằng cách kết hợp chuyên môn của con người với hiệu quả của trí tuệ nhân tạo.

  • Hình ảnh y tế: Trong AI trong chăm sóc sức khỏe , các bác sĩ và chuyên gia X quang sử dụng các công cụ tương tác để phân lập các khối u, tổn thương hoặc các cơ quan cụ thể trong ảnh chụp MRI và CT. Nghiên cứu về mô hình không gian cho hình ảnh y tế [2] cho thấy các cú nhấp chuột tương tác cho phép các chuyên gia y tế nhanh chóng sửa các dự đoán của AI, đảm bảo độ chính xác nghiêm ngặt cần thiết cho việc chẩn đoán bệnh nhân.
  • Lập bản đồ không gian địa lý và vệ tinh: Các nhà quy hoạch đô thị và các nhà khoa học môi trường sử dụng các mô hình tương tác để đẩy nhanh quá trình trích xuất tính năng GIS [3]. Thay vì vẽ thủ công các đường bờ biển phức tạp, ranh giới nông nghiệp hoặc cơ sở hạ tầng mới, các nhà phân tích có thể thực hiện một vài cú nhấp chuột chiến lược để tạo ra ngay lập tức các đa giác địa lý chính xác.
  • Phát hiện lỗi trong công nghiệp: Với AI trong sản xuất , các kỹ sư kiểm soát chất lượng có thể sử dụng các lời nhắc tương tác để làm nổi bật các lỗi siêu nhỏ trên dây chuyền sản xuất, tự động điều chỉnh hệ thống cho phù hợp với các loại lỗi mới mà không cần phải huấn luyện lại toàn bộ mô hình.

Phân đoạn tương tác so với phân đoạn theo trường hợp

Mặc dù cả hai khái niệm đều liên quan đến việc phân tách các đối tượng ở cấp độ pixel, nhưng chúng phục vụ các mục đích hoạt động khác nhau. Phân đoạn đối tượng thường là một quy trình hoàn toàn tự động, trong đó một mô hình, chẳng hạn như Ultralytics YOLO26 , phát hiện và khoanh vùng các lớp được xác định trước (ví dụ: "ô tô", "người", "chó") mà không cần sự can thiệp của người dùng. Bạn có thể tìm hiểu thêm về cách thức hoạt động này trong hướng dẫn của chúng tôi về phân đoạn đối tượng .

Ngược lại, phân đoạn tương tác không hoàn toàn dựa vào các lớp được định nghĩa trước. Nó không phụ thuộc vào lớp, nghĩa là nó phân đoạn bất cứ thứ gì người dùng chỉ vào, khiến nó trở nên rất phù hợp với các quy trình học tập chủ động, nơi cần nhanh chóng chú thích các đối tượng mới và thêm chúng vào các tập dữ liệu tùy chỉnh bằng các công cụ như Nền tảng Ultralytics .

Ví dụ sử dụng Ultralytics

Bạn có thể dễ dàng triển khai phân đoạn tương tác trong các dự án của mình bằng cách sử dụng PyTorchultralytics Python gói. Trong ví dụ này, chúng ta sử dụng FastSAM ĐẾN segment Xác định một đối tượng cụ thể bằng cách cung cấp lời nhắc về khung bao quanh.

from ultralytics import FastSAM

# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")

# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])

# Display the segmented result on screen
results[0].show()

Đoạn mã này minh họa cách một gợi ý không gian đơn giản trực tiếp hướng dẫn mô hình cô lập vùng quan tâm, giúp đơn giản hóa các tác vụ phân đoạn hình ảnh phức tạp với lượng mã tối thiểu.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy