Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Phân vùng ảnh

Khám phá sức mạnh của phân vùng ảnh (image segmentation) với Ultralytics YOLO. Tìm hiểu độ chính xác ở cấp độ pixel, các loại, ứng dụng và các trường hợp sử dụng AI thực tế.

Phân đoạn hình ảnh là một nhiệm vụ cơ bản của thị giác máy tính (CV) liên quan đến việc phân vùng một hình ảnh kỹ thuật số thành nhiều vùng hoặc phân đoạn riêng biệt. Mục tiêu là gán một nhãn cụ thể cho mọi pixel trong một hình ảnh, tạo ra một bản đồ mức pixel của các đối tượng và nền. Không giống như các tác vụ CV khác có thể xác định vị trí của một đối tượng bằng một hộp đơn giản, phân đoạn hình ảnh cung cấp một sự hiểu biết chi tiết hơn nhiều bằng cách phác thảo hình dạng chính xác của từng đối tượng. Chi tiết dạng hạt này rất quan trọng đối với các ứng dụng yêu cầu sự hiểu biết sâu sắc về hình học và thành phần của cảnh. Quá trình này là nền tảng cho nhiều ứng dụng AI nâng cao.

Các Loại Phân Đoạn Ảnh

Phân đoạn hình ảnh có thể được phân loại thành ba loại chính, mỗi loại cung cấp một mức độ chi tiết khác nhau và phục vụ các mục đích riêng biệt:

  • Phân vùng ngữ nghĩa (Semantic Segmentation): Kỹ thuật này phân loại mỗi pixel trong một hình ảnh thành một danh mục được xác định trước, chẳng hạn như "ô tô", "đường" hoặc "bầu trời". Tất cả các thể hiện của cùng một lớp đối tượng được nhóm dưới một nhãn duy nhất. Ví dụ: trong một hình ảnh có nhiều ô tô, phân vùng ngữ nghĩa sẽ gắn nhãn tất cả các pixel thuộc bất kỳ ô tô nào đơn giản là "ô tô", mà không phân biệt ô tô này với ô tô khác.
  • Phân đoạn thể hiện (Instance Segmentation): Phương pháp này tiến thêm một bước so với phân đoạn bằng cách không chỉ phân loại từng pixel mà còn phân biệt giữa các thể hiện riêng lẻ của cùng một lớp. Trong cùng một cảnh đường phố, phân đoạn thể hiện sẽ xác định mỗi chiếc xe là một đối tượng duy nhất, gán một mặt nạ riêng cho "xe 1", "xe 2", v.v. Điều này đặc biệt hữu ích khi cần đếm hoặc theo dõi các đối tượng riêng lẻ.
  • Phân đoạn toàn cảnh (Panoptic Segmentation): Là một phương pháp kết hợp, phân đoạn toàn cảnh kết hợp những điểm mạnh của cả phân đoạn ngữ nghĩa và phân đoạn thể hiện. Nó nhằm mục đích tạo ra một sự hiểu biết đầy đủ và thống nhất về một cảnh bằng cách gán một nhãn lớp cho mọi pixel đơn lẻ (như phân đoạn ngữ nghĩa) đồng thời xác định duy nhất từng thể hiện đối tượng (như phân đoạn thể hiện). Điều này cung cấp phân tích cảnh toàn diện nhất hiện có.

Phân đoạn ảnh khác với các tác vụ CV khác như thế nào

Điều quan trọng là phải phân biệt phân vùng ảnh (image segmentation) với các tác vụ thị giác máy tính (computer vision) phổ biến khác:

  • Phân loại ảnh (Image Classification): Tập trung vào việc gán một nhãn duy nhất cho toàn bộ ảnh (ví dụ: "đây là ảnh chụp bãi biển"). Nó hiểu nội dung trong ảnh là gì nhưng không biết vị trí của nó.
  • Phát hiện đối tượng: Xác định và định vị các đối tượng trong một hình ảnh, thường bằng cách vẽ một khung giới hạn xung quanh chúng. Nó cho bạn biết những đối tượng nào có mặt và vị trí gần đúng của chúng, nhưng không phải hình dạng chính xác của chúng.
  • Phân vùng Ảnh (Image Segmentation): Cung cấp chi tiết nhất bằng cách vạch ra ranh giới chính xác của từng đối tượng ở cấp độ pixel, cung cấp sự hiểu biết chính xác về hình dạng và vị trí của đối tượng.

Các ứng dụng và trường hợp sử dụng

Kết quả chi tiết của image segmentation làm cho nó trở nên vô giá trong nhiều lĩnh vực.

  • Xe tự hành: Để xe tự lái điều hướng an toàn, chúng cần hiểu chính xác về môi trường của mình. Các mô hình phân đoạn xác định ranh giới chính xác của đường, làn đường, người đi bộ, các phương tiện khác và chướng ngại vật, cho phép lập kế hoạch đường đi và ra quyết định tốt hơn. Bạn có thể đọc thêm về vai trò của AI trong ngành công nghiệp ô tô.
  • Phân tích hình ảnh y tế: Trong lĩnh vực chăm sóc sức khỏe, phân đoạn được sử dụng để phân tích các ảnh chụp y tế như MRI hoặc CT scan. Nó có thể phác thảo chính xác các khối u, cơ quan hoặc dị thường, giúp bác sĩ chẩn đoán chính xác, lập kế hoạch phẫu thuật và theo dõi sự tiến triển của bệnh. Đây là một ứng dụng quan trọng đối với các kiến trúc như U-Net, vốn vượt trội trong bối cảnh y sinh.
  • Phân tích ảnh vệ tinh: Các mô hình phân vùng xử lý ảnh vệ tinh để theo dõi các thay đổi môi trường, chẳng hạn như phá rừng hoặc đô thị hóa. Chúng có thể phân loại độ che phủ đất (ví dụ: rừng, nước, khu vực đô thị) và phát hiện các đối tượng riêng lẻ như tòa nhà hoặc tàu thuyền để lập bản đồ và thu thập thông tin tình báo.
  • Sản xuất và Robot (Manufacturing and Robotics): Trong các nhà máy tự động, phân đoạn giúp robot xác định các bộ phận cụ thể trên băng chuyền để lắp ráp hoặc thực hiện kiểm soát chất lượng bằng cách phát hiện các khuyết tật với độ chính xác cao. Bạn có thể tìm hiểu thêm về việc sử dụng nó trong phân đoạn vết nứt (crack segmentation).

Phân đoạn hình ảnh và Ultralytics YOLO

Các mô hình học sâu hiện đại, đặc biệt là các mô hình dựa trên Mạng nơ-ron tích chập (CNN), là tiêu chuẩn cho phân vùng ảnh. Các mô hình Ultralytics YOLO, bao gồm YOLOv8YOLO11 mới nhất, cung cấp khả năng phân vùng theo thời gian thực, hiệu suất cao. Các mô hình này có thể dễ dàng được huấn luyện trên các bộ dữ liệu tiêu chuẩn như COCO hoặc các bộ dữ liệu tùy chỉnh cho các tác vụ chuyên biệt.

Framework Ultralytics đơn giản hóa toàn bộ quy trình làm việc, từ huấn luyện mô hình đến xác thực hiệu suất của nó và triển khai nó để suy luận. Để có hướng dẫn thực hành, bạn có thể làm theo các hướng dẫn về phân vùng ảnh (image segmentation) với YOLOv8 trên Google Colab hoặc tìm hiểu cách cô lập các đối tượng đã phân vùng. Các công cụ như Ultralytics HUB cung cấp giải pháp không cần code để quản lý tập dữ liệu, huấn luyện mô hình bằng tài nguyên đám mâytriển khai chúng vào các ứng dụng thực tế.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard