Phân đoạn hình ảnh
Khám phá sức mạnh của phân đoạn hình ảnh với Ultralytics YOLO. Khám phá độ chính xác ở cấp độ pixel, các loại, ứng dụng và các trường hợp sử dụng AI trong thế giới thực.
Phân đoạn ảnh là một tác vụ cơ bản của thị giác máy tính (CV) , bao gồm việc phân vùng một hình ảnh kỹ thuật số thành nhiều vùng hoặc phân đoạn riêng biệt. Mục tiêu là gán một nhãn cụ thể cho từng pixel trong ảnh, từ đó tạo ra bản đồ cấp độ pixel của các đối tượng và nền. Không giống như các tác vụ CV khác, vốn chỉ có thể xác định vị trí của đối tượng bằng một hộp đơn giản, phân đoạn ảnh cung cấp thông tin chi tiết hơn nhiều bằng cách phác thảo hình dạng chính xác của từng đối tượng. Chi tiết chi tiết này rất quan trọng đối với các ứng dụng đòi hỏi hiểu biết sâu sắc về hình học và bố cục của cảnh. Quá trình này là nền tảng cho nhiều ứng dụng AI tiên tiến.
Các loại phân đoạn hình ảnh
Phân đoạn hình ảnh có thể được phân loại thành ba loại chính, mỗi loại cung cấp mức độ chi tiết khác nhau và phục vụ các mục đích riêng biệt:
- Phân đoạn ngữ nghĩa : Kỹ thuật này phân loại từng pixel trong ảnh thành một danh mục được xác định trước, chẳng hạn như "ô tô", "đường" hoặc "bầu trời". Tất cả các trường hợp của cùng một lớp đối tượng được nhóm lại dưới một nhãn duy nhất. Ví dụ: trong một ảnh có nhiều ô tô, phân đoạn ngữ nghĩa sẽ dán nhãn tất cả các pixel thuộc về bất kỳ ô tô nào là "ô tô", mà không cần phân biệt ô tô này với ô tô khác.
- Phân đoạn thực thể : Phương pháp này đưa phân đoạn lên một tầm cao mới bằng cách không chỉ phân loại từng pixel mà còn phân biệt giữa các thực thể riêng lẻ cùng loại. Trong cùng một cảnh đường phố, phân đoạn thực thể sẽ xác định mỗi chiếc xe là một đối tượng duy nhất, gán một mặt nạ riêng cho "xe 1", "xe 2", v.v. Điều này đặc biệt hữu ích khi cần đếm hoặc theo dõi từng đối tượng.
- Phân đoạn toàn cảnh : Là một phương pháp kết hợp, phân đoạn toàn cảnh kết hợp thế mạnh của cả phân đoạn ngữ nghĩa và phân đoạn thể hiện. Phương pháp này hướng đến việc tạo ra sự hiểu biết toàn diện và thống nhất về một cảnh bằng cách gán nhãn lớp cho từng pixel (tương tự như phân đoạn ngữ nghĩa) đồng thời xác định duy nhất từng thể hiện đối tượng (tương tự như phân đoạn thể hiện). Phương pháp này cung cấp khả năng phân tích cảnh toàn diện nhất hiện có.
Phân đoạn hình ảnh khác với các nhiệm vụ CV khác như thế nào
Điều quan trọng là phải phân biệt phân đoạn hình ảnh với các tác vụ thị giác máy tính phổ biến khác:
- Phân loại hình ảnh : Tập trung vào việc gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: "đây là ảnh bãi biển"). Nó hiểu những gì có trong hình ảnh nhưng không hiểu vị trí.
- Phát hiện Đối tượng : Xác định và định vị các đối tượng trong ảnh, thường bằng cách vẽ một khung giới hạn xung quanh chúng. Tính năng này cho bạn biết những đối tượng nào hiện diện và vị trí gần đúng của chúng, nhưng không cho biết hình dạng chính xác.
- Phân đoạn hình ảnh: Cung cấp thông tin chi tiết nhất bằng cách phác thảo ranh giới chính xác của từng đối tượng ở cấp độ pixel, mang lại hiểu biết chính xác về hình dạng và vị trí của đối tượng.
Ứng dụng và trường hợp sử dụng
Đầu ra chi tiết của phân đoạn hình ảnh làm cho nó trở nên vô cùng hữu ích trong nhiều lĩnh vực.
- Xe tự hành : Để xe tự hành di chuyển an toàn, chúng cần hiểu rõ môi trường xung quanh. Các mô hình phân đoạn xác định ranh giới chính xác của đường, làn đường, người đi bộ, các phương tiện khác và chướng ngại vật, cho phép lập kế hoạch đường đi và ra quyết định tốt hơn. Bạn có thể tìm hiểu thêm về vai trò của AI trong ngành công nghiệp ô tô .
- Phân tích hình ảnh y tế : Trong chăm sóc sức khỏe, phân đoạn được sử dụng để phân tích các hình ảnh quét y tế như MRI hoặc CT . Nó có thể phác thảo chính xác các khối u, cơ quan hoặc bất thường, giúp bác sĩ chẩn đoán chính xác, lập kế hoạch phẫu thuật và theo dõi tiến triển của bệnh. Đây là một ứng dụng quan trọng cho các kiến trúc như U-Net , vốn rất hiệu quả trong bối cảnh y sinh.
- Phân tích ảnh vệ tinh : Các mô hình phân đoạn xử lý ảnh vệ tinh để theo dõi những thay đổi về môi trường, chẳng hạn như nạn phá rừng hoặc đô thị hóa. Chúng có thể phân loại lớp phủ đất (ví dụ: rừng, nước, khu vực đô thị) và phát hiện các vật thể riêng lẻ như tòa nhà hoặc tàu thuyền để lập bản đồ và thu thập thông tin tình báo .
- Sản xuất và Robot : Trong các nhà máy tự động, phân đoạn giúp robot xác định các bộ phận cụ thể trên băng chuyền để lắp ráp hoặc thực hiện kiểm soát chất lượng bằng cách phát hiện lỗi với độ chính xác cao. Bạn có thể tìm hiểu thêm về ứng dụng của nó trong phân đoạn vết nứt .
Phân đoạn hình ảnh và Ultralytics YOLO
Các mô hình học sâu hiện đại, đặc biệt là các mô hình dựa trên Mạng Nơ-ron Tích chập (CNN) , là tiêu chuẩn cho phân đoạn ảnh. Các mô hình YOLO của Ultralytics , bao gồm YOLOv8 và YOLO11 mới nhất, cung cấp khả năng phân đoạn hiệu suất cao theo thời gian thực. Các mô hình này có thể dễ dàng được đào tạo trên các tập dữ liệu tiêu chuẩn như COCO hoặc các tập dữ liệu tùy chỉnh cho các tác vụ chuyên biệt.
Khung Ultralytics đơn giản hóa toàn bộ quy trình làm việc, từ việc huấn luyện mô hình đến xác thực hiệu suất và triển khai mô hình để suy luận. Để được hướng dẫn thực hành, bạn có thể xem hướng dẫn về phân đoạn hình ảnh với YOLO11 trên Google Colab hoặc tìm hiểu cách cô lập các đối tượng đã phân đoạn . Các công cụ như Ultralytics HUB cung cấp giải pháp không cần mã để quản lý tập dữ liệu, huấn luyện mô hình với tài nguyên đám mây và triển khai chúng vào các ứng dụng thực tế .