Image Segmentation
Khám phá phân đoạn hình ảnh (image segmentation) trong thị giác máy tính. Tìm hiểu cách Ultralytics YOLO26 cung cấp các mặt nạ cấp độ pixel chính xác cho phân đoạn thực thể, ngữ nghĩa và toàn cảnh.
Phân đoạn hình ảnh là một kỹ thuật tinh vi trong computer vision (CV), bao gồm việc phân chia một hình ảnh kỹ thuật số thành nhiều nhóm pixel con, thường được gọi là các phân đoạn hình ảnh hoặc vùng. Khác với image classification tiêu chuẩn, vốn chỉ gán một nhãn duy nhất cho toàn bộ hình ảnh, phân đoạn phân tích dữ liệu trực quan ở cấp độ chi tiết hơn nhiều bằng cách gán một nhãn lớp cụ thể cho từng pixel riêng lẻ. Quy trình này tạo ra một bản đồ ở cấp độ pixel chính xác, cho phép các mô hình artificial intelligence (AI) không chỉ hiểu được những đối tượng nào đang hiện diện mà còn biết chính xác vị trí của chúng và các ranh giới cụ thể của chúng.
Link to this sectionCơ chế phân tích cấp độ Pixel#
Để đạt được sự hiểu biết có độ trung thực cao này, các mô hình phân đoạn thường tận dụng các kiến trúc deep learning (DL), đặc biệt là Convolutional Neural Networks (CNNs). Các mạng này hoạt động như những bộ trích xuất đặc trưng mạnh mẽ, xác định các mẫu như cạnh, kết cấu và các hình dạng phức tạp. Các kiến trúc phân đoạn truyền thống, như U-Net kinh điển, thường sử dụng cấu trúc bộ mã hóa-giải mã (encoder-decoder). Bộ mã hóa nén hình ảnh đầu vào để nắm bắt ngữ cảnh ngữ nghĩa, trong khi bộ giải mã tái tạo các chi tiết không gian để xuất ra một segmentation mask cuối cùng.
Những tiến bộ hiện đại đã dẫn đến các kiến trúc thời gian thực như YOLO26, được phát hành vào tháng 1 năm 2026. Các mô hình này tích hợp khả năng phân đoạn trực tiếp vào một pipeline end-to-end, cho phép xử lý tốc độ cao trên nhiều loại phần cứng khác nhau, từ các GPUs đám mây đến các thiết bị biên.
Link to this sectionCác loại phân đoạn chính#
Tùy thuộc vào mục tiêu cụ thể của một dự án, các nhà phát triển thường chọn giữa ba kỹ thuật phân đoạn chính:
- Semantic Segmentation: Phương pháp này phân loại các pixel dựa trên danh mục của chúng nhưng không phân biệt giữa các đối tượng riêng biệt cùng lớp. Ví dụ, trong satellite image analysis, tất cả các pixel đại diện cho "rừng" sẽ được tô màu xanh lục, coi toàn bộ khu rừng là một thực thể duy nhất.
- Instance Segmentation: Kỹ thuật này xác định và tách biệt các đối tượng riêng lẻ đáng quan tâm. Trong một cảnh đường phố đông đúc, instance segmentation sẽ tạo ra một mask duy nhất cho "Ô tô A", "Ô tô B" và "Người đi bộ A", cho phép các hệ thống đếm và theo dõi các thực thể cụ thể. Đây là một tính năng cốt lõi của họ mô hình Ultralytics YOLO26.
- Panoptic Segmentation: Một phương pháp lai kết hợp khả năng bao phủ của semantic segmentation với độ chính xác của instance segmentation. Nó gán một nhãn cho mọi pixel, phân biệt các yếu tố nền vô định hình (như bầu trời và đường đi) đồng thời xác định duy nhất các đối tượng tiền cảnh có thể đếm được.
Link to this sectionPhân biệt với Object Detection#
Việc phân biệt giữa phân đoạn và object detection là rất quan trọng. Trong khi các thuật toán phát hiện định vị các mục bằng một bounding box hình chữ nhật, chúng luôn bao gồm cả các pixel nền bên trong hộp đó. Phân đoạn cung cấp một biểu diễn chính xác và chặt chẽ hơn bằng cách truy vết đường viền hoặc đa giác chính xác của đối tượng. Sự khác biệt này rất quan trọng đối với các ứng dụng như robotic grasping, nơi cánh tay robot cần biết hình học chính xác của một mục để thao tác mà không gây va chạm.
Link to this sectionCác ứng dụng trong thực tế#
Độ chính xác mà phân đoạn hình ảnh mang lại thúc đẩy đổi mới trên nhiều ngành công nghiệp đa dạng:
- Chẩn đoán y tế: Trong lĩnh vực medical image analysis, phân đoạn là yếu tố cần thiết để phác thảo các cấu trúc giải phẫu. Các thuật toán phân tích MRI scans để phân định khối u hoặc ranh giới cơ quan, cho phép các bác sĩ phẫu thuật tính toán thể tích chính xác và lập kế hoạch thủ thuật với độ chính xác cứu mạng.
- Xe tự lái: Các phương tiện tự lái dựa vào phân đoạn để điều hướng an toàn. Bằng cách xử lý các luồng video, máy tính của xe có thể phân biệt drivable lanes với vỉa hè và chướng ngại vật. Các tổ chức tiêu chuẩn như SAE International xác định các cấp độ tự lái đòi hỏi nhận thức môi trường có độ trung thực cao này.
- Nông nghiệp chính xác: Trong AI in agriculture, phân đoạn giúp các hệ thống robot xác định cỏ dại giữa các loại cây trồng. Bằng cách tạo mask cho các lá cây cụ thể, các máy phun tự động có thể chỉ nhắm mục tiêu vào các loài xâm lấn, giúp giảm đáng kể việc sử dụng thuốc diệt cỏ.
Link to this sectionTriển khai phân đoạn với YOLO26#
Các nhà phát triển có thể triển khai instance segmentation hiệu quả bằng cách sử dụng gói Python ultralytics. Ví dụ sau đây sử dụng YOLO26 model hiện đại nhất, được tối ưu hóa cho cả tốc độ và độ chính xác.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()Để đạt được hiệu suất cao trên các tác vụ tùy chỉnh, các nhóm thường cần tuyển chọn training data chất lượng cao. Ultralytics Platform đơn giản hóa quy trình này bằng cách cung cấp các công cụ để chú thích hình ảnh bằng các mask đa giác, quản lý tập dữ liệu và huấn luyện mô hình trên đám mây, giúp hợp lý hóa toàn bộ vòng đời machine learning operations (MLOps). Các thư viện như OpenCV cũng thường được sử dụng cùng với các mô hình này để tiền xử lý hình ảnh và hậu xử lý các mask thu được.






