Thuật ngữ

Phân đoạn toàn cảnh

Khám phá cách phân đoạn toàn cảnh thống nhất phân đoạn ngữ nghĩa và phân đoạn thể hiện để hiểu cảnh chính xác ở cấp độ pixel trong các ứng dụng AI.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phân đoạn toàn cảnh là một nhiệm vụ thị giác máy tính nâng cao nhằm mục đích cung cấp sự hiểu biết hoàn chỉnh và mạch lạc về một hình ảnh bằng cách gán cả nhãn lớp và ID thể hiện duy nhất cho mọi pixel. Nó thống nhất hiệu quả hai mô hình phân đoạn chính: phân đoạn ngữ nghĩa , dán nhãn cho mỗi pixel bằng một danh mục (như 'ô tô', 'đường', 'bầu trời') và phân đoạn thể hiện , xác định và phân định các thể hiện đối tượng riêng lẻ (như 'ô tô 1', 'ô tô 2'). Mục tiêu là tạo ra một bản đồ toàn diện, cấp độ pixel của cảnh, phân biệt giữa các đối tượng khác nhau cùng một lớp và cũng xác định các vùng nền vô định hình, thường được gọi là "thứ" (ví dụ: đường, bầu trời, thảm thực vật) so với "thứ" có thể đếm được (ví dụ: ô tô, người đi bộ, xe đạp). Cách tiếp cận toàn diện này cung cấp bối cảnh cảnh phong phú hơn so với phân đoạn ngữ nghĩa hoặc thể hiện đơn thuần.

Phân đoạn toàn cảnh hoạt động như thế nào

Thuật toán phân đoạn toàn cảnh xử lý hình ảnh để tạo ra một bản đồ đầu ra duy nhất, trong đó mỗi pixel nhận được một nhãn ngữ nghĩa và, nếu nó thuộc về một đối tượng đếm được ("thing"), một ID thể hiện duy nhất. Các pixel thuộc về vùng nền ("stuff") chia sẻ cùng một nhãn ngữ nghĩa nhưng thường không có ID thể hiện duy nhất (hoặc chia sẻ một ID duy nhất cho mỗi danh mục stuff). Các phương pháp tiếp cận hiện đại thường tận dụng học sâu , đặc biệt là các kiến trúc dựa trên Mạng nơ-ron tích chập (CNN) hoặc Transformers . Một số phương pháp sử dụng các nhánh mạng riêng biệt để phân đoạn ngữ nghĩa và thể hiện, sau đó hợp nhất các kết quả, trong khi những phương pháp khác sử dụng các mô hình đầu cuối được thiết kế riêng cho tác vụ toàn cảnh, như đã giới thiệu trong bài báo "Phân đoạn toàn cảnh" ban đầu. Việc đào tạo các mô hình này yêu cầu các tập dữ liệu có chú thích toàn cảnh chi tiết, chẳng hạn như tập dữ liệu toàn cảnh COCO hoặc tập dữ liệu Cityscapes . Hiệu suất thường được đo bằng số liệu Chất lượng toàn cảnh (PQ) , kết hợp chất lượng phân đoạn và chất lượng nhận dạng.

Phân đoạn toàn cảnh so với các nhiệm vụ liên quan

Việc hiểu được sự khác biệt giữa phân đoạn toàn cảnh và các tác vụ thị giác máy tính liên quan là rất quan trọng:

  • Phân đoạn ngữ nghĩa : Gán nhãn lớp (ví dụ: 'xe hơi', 'người', 'đường') cho mọi pixel. Nó xác định các danh mục nhưng không phân biệt giữa các trường hợp riêng biệt của cùng một danh mục. Ví dụ: tất cả các xe hơi có thể được tô màu giống nhau trong mặt nạ đầu ra.
  • Phân đoạn thể hiện : Phát hiện và phân đoạn các thể hiện đối tượng riêng lẻ (ví dụ: 'xe 1', 'xe 2', 'người 1'). Nó tập trung vào "những thứ" có thể đếm được và thường bỏ qua "thứ" nền vô định hình như bầu trời hoặc đường, hoặc coi chúng như một lớp nền duy nhất. Các mô hình YOLO Ultralytics cung cấp khả năng phân đoạn thể hiện mạnh mẽ. Bạn có thể tìm hiểu thêm trong hướng dẫn này về phân đoạn thể hiện so với phân đoạn ngữ nghĩa .
  • Phát hiện đối tượng : Xác định sự hiện diện và vị trí của đối tượng bằng cách sử dụng hộp giới hạn và gán nhãn lớp. Nó không cung cấp mặt nạ cấp pixel hoặc vùng nền phân đoạn. Nhiều mô hình phát hiện đối tượng tiên tiến, như YOLOv10YOLO11 , có sẵn để so sánh, chẳng hạn như YOLO11 so với YOLOv10 .

Phân đoạn toàn cảnh kết hợp độc đáo sức mạnh của phân đoạn ngữ nghĩa và phân đoạn thể hiện, cung cấp đầu ra thống nhất phân đoạn tất cả các điểm ảnh thành các vùng nền được gắn nhãn lớp hoặc các thể hiện đối tượng riêng biệt.

Ứng dụng của phân đoạn toàn cảnh

Hiểu biết toàn diện về bối cảnh được cung cấp bởi phân đoạn toàn cảnh có giá trị trong nhiều lĩnh vực:

  • Xe tự hành : Xe tự lái đòi hỏi phải hiểu biết đầy đủ về môi trường xung quanh. Phân đoạn toàn cảnh cho phép chúng đồng thời xác định đường, vỉa hè, tòa nhà ("đồ vật") và phân biệt từng xe, người đi bộ, người đi xe đạp ("đồ vật"), ngay cả khi các vật thể chồng lên nhau. Nhận thức chi tiết này rất quan trọng để điều hướng an toàn và ra quyết định. Xem cách Ultralytics đóng góp vào giải pháp AI trong ô tô .
  • Phân tích hình ảnh y tế : Trong quá trình phân tích các hình ảnh quét y tế như MRI hoặc CT , phân đoạn toàn cảnh có thể phân biệt các loại mô khác nhau ("thứ") đồng thời xác định và phân đoạn các trường hợp cụ thể của các cấu trúc như khối u, tổn thương hoặc tế bào riêng lẻ ("thứ"). Điều này hỗ trợ chẩn đoán, lập kế hoạch điều trị và theo dõi tiến triển của bệnh. Đọc về việc sử dụng YOLO11 để phát hiện khối u .
  • Robot : Robot hoạt động trong môi trường phức tạp được hưởng lợi từ việc hiểu cả bố cục (tường, sàn - "đồ vật") và các vật thể riêng lẻ mà chúng có thể tương tác (công cụ, bộ phận, con người - "đồ vật"). Điều này giúp ích cho việc điều hướng, thao tác và tương tác giữa người và robot. Khám phá AI trong robot .
  • Thực tế tăng cường (AR): Các ứng dụng AR có thể sử dụng phân đoạn toàn cảnh để đặt các vật thể ảo vào bối cảnh thế giới thực một cách chân thực, xử lý chính xác các hiện tượng che khuất và tương tác với cả bề mặt nền và vật thể ở phía trước. Xem những tiến bộ trong công nghệ AR .
  • Phân tích hình ảnh vệ tinh : Được sử dụng để lập bản đồ chi tiết về lớp phủ đất, phân biệt giữa các loại diện tích lớn như rừng hoặc vùng nước ("đồ vật") và các cấu trúc riêng lẻ như tòa nhà hoặc phương tiện ("đồ vật"). Tìm hiểu về các kỹ thuật phân tích hình ảnh vệ tinh .

Trong khi Ultralytics các mô hình như YOLO11 cung cấp hiệu suất tiên tiến trong các tác vụ như phát hiện đối tượngphân đoạn trường hợp , phân đoạn toàn cảnh đại diện cho cấp độ hiểu biết cảnh tích hợp tiếp theo, rất quan trọng đối với các ứng dụng AI ngày càng tinh vi. Bạn có thể quản lý và đào tạo các mô hình cho các tác vụ liên quan bằng các nền tảng như Ultralytics HUB .

Đọc tất cả