Khám phá sức mạnh của phân đoạn hình ảnh với Ultralytics YOLO . Khám phá độ chính xác ở cấp độ pixel, các loại, ứng dụng và trường hợp sử dụng AI trong thế giới thực.
Phân đoạn ảnh là một quy trình nền tảng trong lĩnh vực thị giác máy tính (CV) , bao gồm việc chia một ảnh kỹ thuật số thành nhiều nhóm pixel nhỏ, thường được gọi là các phân đoạn hoặc vùng ảnh. Trong khi phân loại ảnh tiêu chuẩn gán một nhãn duy nhất cho toàn bộ ảnh, phân đoạn ảnh tiến thêm một bước bằng cách gán một nhãn lớp cụ thể cho từng pixel riêng lẻ. Cách tiếp cận chi tiết này tạo ra một bản đồ chính xác ở cấp độ pixel của ảnh, cho phép các mô hình trí tuệ nhân tạo (AI) hiểu không chỉ những đối tượng nào có mặt, mà còn chính xác vị trí của chúng và hình dạng cụ thể của chúng.
Để đạt được sự hiểu biết chi tiết này, các mô hình phân đoạn thường sử dụng kiến trúc học sâu (DL) , cụ thể là Mạng nơ-ron tích chập (CNN) . Các mạng này hoạt động như các bộ trích xuất đặc trưng, xác định các mẫu như cạnh, kết cấu và hình dạng. Một kiến trúc phân đoạn điển hình, chẳng hạn như U-Net kinh điển, sử dụng cấu trúc mã hóa-giải mã. Bộ mã hóa nén đầu vào để nắm bắt ngữ cảnh ngữ nghĩa, trong khi bộ giải mã tái tạo các chi tiết không gian để xuất ra mặt nạ phân đoạn .
Những tiến bộ hiện đại đã dẫn đến các kiến trúc thời gian thực như YOLO26 , tích hợp khả năng phân đoạn trực tiếp vào quy trình phát hiện từ đầu đến cuối. Điều này cho phép xử lý tốc độ cao trên nhiều phần cứng khác nhau, từ GPU đám mây mạnh mẽ đến các thiết bị biên có tài nguyên hạn chế.
Tùy thuộc vào yêu cầu cụ thể của dự án, các nhà phát triển thường lựa chọn giữa ba kỹ thuật phân đoạn chính:
Độ chính xác mà phân khúc mang lại cho phép thực hiện các chức năng quan trọng trong nhiều ngành công nghiệp khác nhau:
Điều quan trọng là phải phân biệt giữa phân đoạn và phát hiện đối tượng . Trong khi phát hiện đối tượng định vị các vật thể bằng cách sử dụng một hộp giới hạn hình chữ nhật, nó bao gồm cả các pixel nền bên trong hộp đó. Phân đoạn cung cấp một hình ảnh chính xác hơn bằng cách theo dõi đường viền chính xác của đối tượng. Sự khác biệt này rất quan trọng đối với các ứng dụng như gắp vật bằng robot , nơi cánh tay robot phải biết hình dạng chính xác của vật thể để nhặt nó lên mà không va chạm.
Các nhà phát triển có thể triển khai phân đoạn phiên bản một cách hiệu quả bằng cách sử dụng ultralytics Python gói. Ví dụ sau sử dụng công nghệ tiên tiến nhất. Mô hình YOLO26Phiên bản này được phát hành vào tháng 1 năm 2026, được tối ưu hóa về tốc độ và độ chính xác.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()
Để đạt hiệu suất cao trong các tác vụ tùy chỉnh, các nhóm thường cần chọn lọc dữ liệu huấn luyện chất lượng cao. Nền tảng Ultralytics đơn giản hóa quy trình này bằng cách cung cấp các công cụ để chú thích hình ảnh bằng mặt nạ đa giác, quản lý tập dữ liệu và huấn luyện mô hình trên đám mây, giúp tối ưu hóa toàn bộ vòng đời vận hành học máy (MLOps) .