Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Phân vùng toàn cảnh

Khám phá cách phân vùng toàn cảnh hợp nhất phân vùng ngữ nghĩa và phân vùng thể hiện để hiểu chính xác cảnh ở cấp độ pixel trong các ứng dụng AI.

Phân vùng toàn cảnh (Panoptic segmentation) là một tác vụ thị giác máy tính (CV) nâng cao, cung cấp sự hiểu biết toàn diện ở cấp độ pixel về toàn bộ cảnh. Nó thống nhất hai tác vụ riêng biệt: phân vùng ngữ nghĩa (semantic segmentation)phân vùng thể hiện (instance segmentation). Mục tiêu là gán cho mọi pixel trong ảnh cả nhãn lớp (như ô tô, người hoặc bầu trời) và, đối với các đối tượng riêng biệt, một ID thể hiện duy nhất. Điều này tạo ra một đầu ra chi tiết và toàn diện hơn so với bất kỳ phương pháp phân vùng nào có thể đạt được một mình, cho phép máy móc nhận biết môi trường trực quan với mức độ chi tiết gần với thị giác của con người. Thuật ngữ này được giới thiệu trong bài báo đột phá năm 2018 "Panoptic Segmentation" của các nhà nghiên cứu từ FAIR.

So sánh phân đoạn toàn cảnh với các loại phân đoạn khác

Để hiểu đầy đủ về phân đoạn toàn cảnh (panoptic segmentation), bạn nên so sánh nó với các thành phần cấu thành:

  • Phân Vùng Ngữ Nghĩa (Semantic Segmentation): Kỹ thuật này phân loại mọi pixel trong một hình ảnh vào một danh mục cụ thể. Ví dụ: nó sẽ gán nhãn tất cả các pixel thuộc về ô tô là "ô tô" và tất cả các pixel của đường là "đường". Tuy nhiên, nó không phân biệt giữa các thể hiện khác nhau của cùng một lớp đối tượng. Hai chiếc xe riêng biệt cạnh nhau sẽ là một phần của cùng một bản đồ pixel "ô tô".
  • Phân đoạn thể hiện (Instance Segmentation): Phương pháp này phát hiện và phân đoạn các đối tượng riêng lẻ, thường được gọi là "vật thể" (ví dụ: ô tô, người đi bộ, động vật). Nó gán một mask duy nhất cho mỗi instance đối tượng được phát hiện, chẳng hạn như car_1, car_2, và pedestrian_1. Tuy nhiên, phân đoạn thể hiện thường bỏ qua các vùng nền vô định hình, hoặc "stuff" (ví dụ: bầu trời, đường, cỏ, tường), những vùng không có hình dạng hoặc số lượng riêng biệt.
  • Phân đoạn toàn cảnh: Điều này kết hợp những điểm mạnh của cả phân đoạn ngữ nghĩa và phân đoạn thể hiện. Nó phân đoạn mọi pixel đơn lẻ trong hình ảnh, cung cấp nhãn lớp cho cả "vật thể" và "vật chất." Quan trọng là, nó cũng gán một ID thể hiện duy nhất cho mỗi "vật thể", cung cấp một cách giải thích cảnh đầy đủ và thống nhất. Ví dụ: một mô hình toàn cảnh sẽ không chỉ gắn nhãn bầu trời và đường mà còn xác định và phân định car_1, car_2, và pedestrian_1 như các thực thể riêng biệt. Cách tiếp cận toàn diện này là rất quan trọng đối với Các ứng dụng AI.

Các ứng dụng của phân vùng toàn cảnh

Khả năng hiểu ngữ cảnh chi tiết được cung cấp bởi panoptic segmentation là vô giá trong nhiều lĩnh vực:

  • Xe tự hành: Xe tự lái yêu cầu hiểu biết đầy đủ về môi trường xung quanh để điều hướng an toàn. Phân vùng toàn cảnh (Panoptic segmentation) cho phép chúng xác định các bề mặt vô định hình như đường và vỉa hè ("stuff") đồng thời phân biệt các ô tô, người đi bộ và người đi xe đạp riêng lẻ ("things"), ngay cả khi chúng chồng lên nhau. Nhận thức chi tiết này, như được thể hiện trong các hệ thống từ các công ty như Waymo, rất quan trọng để lập kế hoạch đường đi và ra quyết định an toàn. Xem cách Ultralytics đóng góp vào AI trong các giải pháp ô tô.
  • Phân tích hình ảnh y tế: Trong phân tích ảnh chụp y tế như MRI hoặc CT scans, phân vùng toàn cảnh có thể phân biệt các loại mô khác nhau ("stuff") đồng thời xác định các thể hiện cụ thể của các cấu trúc như khối u hoặc các tế bào riêng lẻ ("things"). Điều này hỗ trợ chẩn đoán chính xác hơn, hỗ trợ lập kế hoạch phẫu thuật và giúp theo dõi sự tiến triển của bệnh. Bạn có thể đọc về các tác vụ liên quan như sử dụng YOLO11 để phát hiện khối u.
  • Robotics (ngành robot): Để robot tương tác hiệu quả với môi trường của chúng, chúng phải hiểu cả bố cục chung (tường, sàn) và các đối tượng cụ thể mà chúng có thể thao tác (công cụ, bộ phận). Phân đoạn toàn cảnh cung cấp cái nhìn thống nhất này, cải thiện khả năng điều hướng và tương tác giữa người và robot trong các môi trường phức tạp như nhà kho và nhà máy. Tìm hiểu thêm về vai trò của AI trong ngành robot.
  • Thực tế tăng cường (AR): Các ứng dụng AR sử dụng phân đoạn toàn cảnh để kết hợp liền mạch các đối tượng ảo với thế giới thực. Bằng cách hiểu vị trí của cả bề mặt nền và các đối tượng tiền cảnh, các hệ thống AR có thể đặt nội dung ảo một cách thực tế, xử lý chính xác các tắc nghẽn. Điều này đã dẫn đến những tiến bộ lớn trong công nghệ AR.
  • Satellite Image Analysis (Phân tích ảnh vệ tinh): Kỹ thuật này được sử dụng để lập bản đồ lớp phủ đất chi tiết, phân biệt giữa các loại khu vực lớn như rừng hoặc vùng nước ("stuff") và các cấu trúc riêng lẻ như tòa nhà hoặc xe cộ ("things"). Các cơ quan chính phủ như USGS sử dụng dữ liệu này để theo dõi môi trường và quy hoạch đô thị.

Các mô hình và triển khai

Các mô hình phân đoạn toàn cảnh thường được xây dựng bằng các framework học sâu như PyTorch và được huấn luyện trên các bộ dữ liệu quy mô lớn như COCO-PanopticCityscapes. Trong khi các mô hình Ultralytics như YOLO11 mang lại hiệu suất vượt trội trong các tác vụ cốt lõi như nhận diện đối tượngphân đoạn thể hiện, vốn là các khối xây dựng thiết yếu, thì phân đoạn toàn cảnh thể hiện một cấp độ hiểu biết cảnh tích hợp cao hơn. Khi các nghiên cứu tại các tổ chức như Google AIMeta AI tiếp tục, khả năng của các mô hình toàn diện này không ngừng được cải thiện, mở đường cho các hệ thống AI phức tạp và nhận thức cao hơn. Bạn có thể quản lý và huấn luyện các mô hình cho các tác vụ liên quan bằng cách sử dụng các nền tảng như Ultralytics HUB.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard