Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phân vùng ảnh

Khám phá phân đoạn ảnh trong thị giác máy tính. Tìm hiểu cách thực hiện. Ultralytics YOLO26 cung cấp các mặt nạ chính xác ở cấp độ pixel, ví dụ như để phân đoạn ngữ nghĩa và phân đoạn toàn cảnh.

Phân đoạn ảnh là một kỹ thuật phức tạp trong thị giác máy tính (CV) liên quan đến việc chia một ảnh kỹ thuật số thành nhiều nhóm pixel nhỏ, thường được gọi là các phân đoạn hoặc vùng ảnh. Không giống như phân loại ảnh tiêu chuẩn, vốn gán một nhãn duy nhất cho toàn bộ ảnh, phân đoạn phân tích dữ liệu hình ảnh ở mức độ chi tiết hơn nhiều bằng cách gán một nhãn lớp cụ thể cho từng pixel riêng lẻ. Quá trình này tạo ra một bản đồ chính xác ở cấp độ pixel, cho phép các mô hình trí tuệ nhân tạo (AI) hiểu không chỉ những đối tượng nào hiện diện, mà còn chính xác vị trí của chúng và ranh giới cụ thể của chúng.

Cơ chế phân tích cấp độ pixel

Để đạt được sự hiểu biết chính xác cao này, các mô hình phân đoạn thường tận dụng kiến ​​trúc học sâu (DL) , đặc biệt là Mạng nơ-ron tích chập (CNN) . Các mạng này hoạt động như các bộ trích xuất đặc trưng mạnh mẽ, xác định các mẫu như cạnh, kết cấu và hình dạng phức tạp. Các kiến ​​trúc phân đoạn truyền thống, như U-Net kinh điển, thường sử dụng cấu trúc mã hóa-giải mã. Bộ mã hóa nén hình ảnh đầu vào để nắm bắt ngữ cảnh ngữ nghĩa, trong khi bộ giải mã tái tạo các chi tiết không gian để xuất ra mặt nạ phân đoạn cuối cùng.

Những tiến bộ hiện đại đã dẫn đến các kiến ​​trúc thời gian thực như YOLO26 , được phát hành vào tháng 1 năm 2026. Các mô hình này tích hợp khả năng phân đoạn trực tiếp vào một quy trình đầu cuối, cho phép xử lý tốc độ cao trên nhiều phần cứng khác nhau, từ GPU đám mây đến các thiết bị biên.

Các loại phân khúc chính

Tùy thuộc vào mục tiêu cụ thể của dự án, các nhà phát triển thường lựa chọn giữa ba kỹ thuật phân đoạn chính:

  • Phân đoạn ngữ nghĩa : Phương pháp này phân loại các pixel dựa trên danh mục của chúng nhưng không phân biệt giữa các đối tượng riêng biệt thuộc cùng một lớp. Ví dụ, trong phân tích ảnh vệ tinh , tất cả các pixel đại diện cho "rừng" sẽ được tô màu xanh lá cây, coi toàn bộ khu rừng như một thực thể duy nhất.
  • Phân đoạn đối tượng : Kỹ thuật này xác định và tách biệt các đối tượng riêng lẻ cần quan tâm. Trong một khung cảnh đường phố đông đúc, phân đoạn đối tượng sẽ tạo ra một mặt nạ duy nhất cho "Xe A", "Xe B" và "Người đi bộ A", cho phép hệ thống đếm và... track các thực thể cụ thể. Đây là một tính năng cốt lõi của dòng sản phẩm Ultralytics YOLO26 .
  • Phân đoạn toàn cảnh : Một phương pháp lai kết hợp phạm vi bao phủ của phân đoạn ngữ nghĩa với độ chính xác của phân đoạn đối tượng. Nó gán nhãn cho mỗi pixel, phân biệt các yếu tố nền không định hình (như bầu trời và đường) đồng thời xác định duy nhất các đối tượng tiền cảnh có thể đếm được.

Phân biệt với phát hiện đối tượng

Việc phân biệt giữa phân đoạn và phát hiện đối tượng là vô cùng quan trọng. Trong khi các thuật toán phát hiện định vị các đối tượng bằng cách sử dụng một hộp giới hạn hình chữ nhật, chúng chắc chắn sẽ bao gồm các pixel nền bên trong hộp đó. Phân đoạn cung cấp một hình ảnh chính xác hơn bằng cách theo dõi đường viền hoặc đa giác chính xác của đối tượng. Sự khác biệt này rất quan trọng đối với các ứng dụng như gắp vật bằng robot , nơi cánh tay robot phải biết hình dạng chính xác của một vật thể để thao tác nó mà không va chạm.

Các Ứng dụng Thực tế

Độ chính xác mà phân đoạn hình ảnh mang lại thúc đẩy sự đổi mới trong nhiều ngành công nghiệp khác nhau:

  • Chẩn đoán y khoa: Trong lĩnh vực phân tích hình ảnh y khoa , phân đoạn là yếu tố thiết yếu để xác định cấu trúc giải phẫu. Các thuật toán phân tích ảnh chụp MRI để xác định ranh giới khối u hoặc các cơ quan, cho phép các bác sĩ phẫu thuật tính toán thể tích chính xác và lập kế hoạch phẫu thuật với độ chính xác cứu sống bệnh nhân.
  • Lái xe tự hành: Xe tự lái dựa vào khả năng phân đoạn để di chuyển an toàn. Bằng cách xử lý nguồn cấp dữ liệu video, máy tính của xe có thể phân biệt làn đường an toàn với vỉa hè và chướng ngại vật. Các tổ chức tiêu chuẩn như SAE International định nghĩa các cấp độ tự chủ cần thiết cho khả năng nhận thức môi trường có độ chính xác cao này.
  • Nông nghiệp chính xác: Trong ứng dụng trí tuệ nhân tạo trong nông nghiệp , phân đoạn giúp hệ thống robot xác định cỏ dại giữa các cây trồng. Bằng cách tạo mặt nạ cho từng loại lá cây cụ thể, máy phun tự động có thể chỉ nhắm mục tiêu vào các loài xâm lấn, giảm đáng kể lượng thuốc diệt cỏ sử dụng.

Triển khai phân đoạn với YOLO26

Các nhà phát triển có thể triển khai phân đoạn phiên bản một cách hiệu quả bằng cách sử dụng ultralytics Python gói. Ví dụ sau sử dụng công nghệ tiên tiến nhất. Mô hình YOLO26, được tối ưu hóa cả về tốc độ và độ chính xác.

from ultralytics import YOLO

# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")

# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")

# Display the image with segmentation overlays
results[0].show()

Để đạt hiệu suất cao trong các tác vụ tùy chỉnh, các nhóm thường cần tuyển chọn dữ liệu huấn luyện chất lượng cao. Nền tảng Ultralytics đơn giản hóa quy trình này bằng cách cung cấp các công cụ để chú thích hình ảnh bằng mặt nạ đa giác, quản lý tập dữ liệu và huấn luyện mô hình trên đám mây, giúp tối ưu hóa toàn bộ vòng đời vận hành học máy (MLOps) . Các thư viện như OpenCV cũng thường được sử dụng cùng với các mô hình này để tiền xử lý hình ảnh và hậu xử lý các mặt nạ thu được.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay