Khám phá sức mạnh của phân đoạn hình ảnh với Ultralytics YOLO . Khám phá độ chính xác ở cấp độ pixel, các loại, ứng dụng và trường hợp sử dụng AI trong thế giới thực.
Phân đoạn ảnh là một kỹ thuật cốt lõi trong thị giác máy tính (CV) , bao gồm việc phân chia một ảnh kỹ thuật số thành nhiều nhóm điểm ảnh con, thường được gọi là các phân đoạn ảnh. Mục tiêu chính là đơn giản hóa việc biểu diễn ảnh thành một hình ảnh có ý nghĩa hơn và dễ phân tích hơn. Không giống như phát hiện đối tượng , vốn định vị các đối tượng trong một khung giới hạn hình chữ nhật, phân đoạn ảnh cung cấp một bản đồ chính xác ở cấp độ điểm ảnh về hình dạng của đối tượng. Quá trình này gán nhãn cho mỗi điểm ảnh trong ảnh, cho phép các mô hình trí tuệ nhân tạo (AI) hiểu được ranh giới và đường viền chính xác của các thực thể trong một cảnh.
Trong nhiều quy trình học máy (ML) hiện đại, việc biết vị trí gần đúng của một vật thể là chưa đủ. Các ứng dụng yêu cầu tương tác với thế giới vật lý—chẳng hạn như robot cầm một gói hàng hoặc xe hơi di chuyển trên đường quanh co—đòi hỏi sự hiểu biết chi tiết về hình học. Phân đoạn hình ảnh thu hẹp khoảng cách này bằng cách chuyển đổi dữ liệu hình ảnh thô thành một tập hợp các vùng được phân loại. Khả năng này được hỗ trợ bởi các kiến trúc học sâu (DL) tiên tiến, đặc biệt là Mạng Nơ-ron Tích chập (CNN) , giúp trích xuất các đặc điểm không gian để phân biệt giữa các vật thể tiền cảnh và hậu cảnh.
Hiểu rõ nhiệm vụ phân đoạn cụ thể là rất quan trọng để lựa chọn kiến trúc mô hình phù hợp. Ba hạng mục chính là:
Khả năng phân định ranh giới chính xác khiến phân khúc trở nên không thể thiếu trong nhiều ngành công nghiệp khác nhau:
Các khuôn khổ hiện đại đã đơn giản hóa việc triển khai các tác vụ phân đoạn. Trong khi các bộ phát hiện hai giai đoạn cũ hơn như Mask R-CNN chính xác nhưng chậm, các mô hình một giai đoạn đã cách mạng hóa lĩnh vực này bằng cách cung cấp khả năng suy luận thời gian thực . Ví dụ, mô hình YOLO11 Ultralytics hỗ trợ phân đoạn thực thể một cách tự nhiên. Nhìn về tương lai, YOLO26 đang được phát triển để tối ưu hóa hơn nữa các khả năng này với quy trình xử lý đầu cuối.
Các nhà phát triển có thể sử dụng các thư viện chuẩn như OpenCV để xử lý trước và trực quan hóa, trong khi sử dụng các khuôn khổ dựa trên PyTorch để thực hiện suy luận mô hình.
Sau đây là một ví dụ ngắn gọn về cách thực hiện phân đoạn phiên bản bằng cách sử dụng một YOLO11 mô hình trong Python :
from ultralytics import YOLO
# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference on an image (can be a local path or URL)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with segmentation masks overlaid
results[0].show()
Đoạn mã này tự động xử lý các tác vụ phức tạp của việc trích xuất tính năng, hồi quy hộp giới hạn và tạo mặt nạ, cho phép các nhà phát triển tập trung vào việc tích hợp kết quả phân đoạn vào các ứng dụng lớn hơn của họ.