Khám phá cách phân đoạn toàn cảnh thống nhất phân đoạn ngữ nghĩa và phân đoạn thể hiện để hiểu cảnh chính xác ở cấp độ pixel trong các ứng dụng AI.
Phân đoạn toàn cảnh là một nhiệm vụ thị giác máy tính nâng cao nhằm mục đích cung cấp sự hiểu biết hoàn chỉnh và mạch lạc về một hình ảnh bằng cách gán cả nhãn lớp và ID thể hiện duy nhất cho mọi pixel. Nó thống nhất hiệu quả hai mô hình phân đoạn chính: phân đoạn ngữ nghĩa , dán nhãn cho mỗi pixel bằng một danh mục (như 'ô tô', 'đường', 'bầu trời') và phân đoạn thể hiện , xác định và phân định các thể hiện đối tượng riêng lẻ (như 'ô tô 1', 'ô tô 2'). Mục tiêu là tạo ra một bản đồ toàn diện, cấp độ pixel của cảnh, phân biệt giữa các đối tượng khác nhau cùng một lớp và cũng xác định các vùng nền vô định hình, thường được gọi là "thứ" (ví dụ: đường, bầu trời, thảm thực vật) so với "thứ" có thể đếm được (ví dụ: ô tô, người đi bộ, xe đạp). Cách tiếp cận toàn diện này cung cấp bối cảnh cảnh phong phú hơn so với phân đoạn ngữ nghĩa hoặc thể hiện đơn thuần.
Thuật toán phân đoạn toàn cảnh xử lý hình ảnh để tạo ra một bản đồ đầu ra duy nhất, trong đó mỗi pixel nhận được một nhãn ngữ nghĩa và, nếu nó thuộc về một đối tượng đếm được ("thing"), một ID thể hiện duy nhất. Các pixel thuộc về vùng nền ("stuff") chia sẻ cùng một nhãn ngữ nghĩa nhưng thường không có ID thể hiện duy nhất (hoặc chia sẻ một ID duy nhất cho mỗi danh mục stuff). Các phương pháp tiếp cận hiện đại thường tận dụng học sâu , đặc biệt là các kiến trúc dựa trên Mạng nơ-ron tích chập (CNN) hoặc Transformers . Một số phương pháp sử dụng các nhánh mạng riêng biệt để phân đoạn ngữ nghĩa và thể hiện, sau đó hợp nhất các kết quả, trong khi những phương pháp khác sử dụng các mô hình đầu cuối được thiết kế riêng cho tác vụ toàn cảnh, như đã giới thiệu trong bài báo "Phân đoạn toàn cảnh" ban đầu. Việc đào tạo các mô hình này yêu cầu các tập dữ liệu có chú thích toàn cảnh chi tiết, chẳng hạn như tập dữ liệu toàn cảnh COCO hoặc tập dữ liệu Cityscapes . Hiệu suất thường được đo bằng số liệu Chất lượng toàn cảnh (PQ) , kết hợp chất lượng phân đoạn và chất lượng nhận dạng.
Việc hiểu được sự khác biệt giữa phân đoạn toàn cảnh và các tác vụ thị giác máy tính liên quan là rất quan trọng:
Phân đoạn toàn cảnh kết hợp độc đáo sức mạnh của phân đoạn ngữ nghĩa và phân đoạn thể hiện, cung cấp đầu ra thống nhất phân đoạn tất cả các điểm ảnh thành các vùng nền được gắn nhãn lớp hoặc các thể hiện đối tượng riêng biệt.
Hiểu biết toàn diện về bối cảnh được cung cấp bởi phân đoạn toàn cảnh có giá trị trong nhiều lĩnh vực:
Trong khi Ultralytics các mô hình như YOLO11 cung cấp hiệu suất tiên tiến trong các tác vụ như phát hiện đối tượng và phân đoạn trường hợp , phân đoạn toàn cảnh đại diện cho cấp độ hiểu biết cảnh tích hợp tiếp theo, rất quan trọng đối với các ứng dụng AI ngày càng tinh vi. Bạn có thể quản lý và đào tạo các mô hình cho các tác vụ liên quan bằng các nền tảng như Ultralytics HUB .