Khám phá phân đoạn ảnh trong thị giác máy tính. Tìm hiểu cách thực hiện. Ultralytics YOLO26 cung cấp các mặt nạ chính xác ở cấp độ pixel, ví dụ như để phân đoạn ngữ nghĩa và phân đoạn toàn cảnh.
Phân đoạn ảnh là một kỹ thuật phức tạp trong thị giác máy tính (CV) liên quan đến việc chia một ảnh kỹ thuật số thành nhiều nhóm pixel nhỏ, thường được gọi là các phân đoạn hoặc vùng ảnh. Không giống như phân loại ảnh tiêu chuẩn, vốn gán một nhãn duy nhất cho toàn bộ ảnh, phân đoạn phân tích dữ liệu hình ảnh ở mức độ chi tiết hơn nhiều bằng cách gán một nhãn lớp cụ thể cho từng pixel riêng lẻ. Quá trình này tạo ra một bản đồ chính xác ở cấp độ pixel, cho phép các mô hình trí tuệ nhân tạo (AI) hiểu không chỉ những đối tượng nào hiện diện, mà còn chính xác vị trí của chúng và ranh giới cụ thể của chúng.
Để đạt được sự hiểu biết chính xác cao này, các mô hình phân đoạn thường tận dụng kiến trúc học sâu (DL) , đặc biệt là Mạng nơ-ron tích chập (CNN) . Các mạng này hoạt động như các bộ trích xuất đặc trưng mạnh mẽ, xác định các mẫu như cạnh, kết cấu và hình dạng phức tạp. Các kiến trúc phân đoạn truyền thống, như U-Net kinh điển, thường sử dụng cấu trúc mã hóa-giải mã. Bộ mã hóa nén hình ảnh đầu vào để nắm bắt ngữ cảnh ngữ nghĩa, trong khi bộ giải mã tái tạo các chi tiết không gian để xuất ra mặt nạ phân đoạn cuối cùng.
Những tiến bộ hiện đại đã dẫn đến các kiến trúc thời gian thực như YOLO26 , được phát hành vào tháng 1 năm 2026. Các mô hình này tích hợp khả năng phân đoạn trực tiếp vào một quy trình đầu cuối, cho phép xử lý tốc độ cao trên nhiều phần cứng khác nhau, từ GPU đám mây đến các thiết bị biên.
Tùy thuộc vào mục tiêu cụ thể của dự án, các nhà phát triển thường lựa chọn giữa ba kỹ thuật phân đoạn chính:
Việc phân biệt giữa phân đoạn và phát hiện đối tượng là vô cùng quan trọng. Trong khi các thuật toán phát hiện định vị các đối tượng bằng cách sử dụng một hộp giới hạn hình chữ nhật, chúng chắc chắn sẽ bao gồm các pixel nền bên trong hộp đó. Phân đoạn cung cấp một hình ảnh chính xác hơn bằng cách theo dõi đường viền hoặc đa giác chính xác của đối tượng. Sự khác biệt này rất quan trọng đối với các ứng dụng như gắp vật bằng robot , nơi cánh tay robot phải biết hình dạng chính xác của một vật thể để thao tác nó mà không va chạm.
Độ chính xác mà phân đoạn hình ảnh mang lại thúc đẩy sự đổi mới trong nhiều ngành công nghiệp khác nhau:
Các nhà phát triển có thể triển khai phân đoạn phiên bản một cách hiệu quả bằng cách sử dụng ultralytics Python gói. Ví dụ sau sử dụng công nghệ tiên tiến nhất. Mô hình YOLO26, được tối ưu hóa cả về tốc độ và độ chính xác.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()
Để đạt hiệu suất cao trong các tác vụ tùy chỉnh, các nhóm thường cần tuyển chọn dữ liệu huấn luyện chất lượng cao. Nền tảng Ultralytics đơn giản hóa quy trình này bằng cách cung cấp các công cụ để chú thích hình ảnh bằng mặt nạ đa giác, quản lý tập dữ liệu và huấn luyện mô hình trên đám mây, giúp tối ưu hóa toàn bộ vòng đời vận hành học máy (MLOps) . Các thư viện như OpenCV cũng thường được sử dụng cùng với các mô hình này để tiền xử lý hình ảnh và hậu xử lý các mặt nạ thu được.