Thuật ngữ

Phân đoạn toàn cảnh

Khám phá cách phân đoạn toàn cảnh thống nhất phân đoạn ngữ nghĩa và phân đoạn thể hiện để hiểu cảnh chính xác ở cấp độ pixel trong các ứng dụng AI.

Phân đoạn toàn cảnh (panoptic segmentation) là một tác vụ thị giác máy tính (CV) nâng cao, cung cấp khả năng hiểu toàn diện, ở cấp độ pixel về toàn bộ khung cảnh. Nó hợp nhất hai tác vụ riêng biệt: phân đoạn ngữ nghĩaphân đoạn thực thể . Mục tiêu là gán cho mỗi pixel trong ảnh một nhãn lớp (như xe hơi, người hoặc bầu trời) và, đối với các đối tượng riêng biệt, một ID thực thể duy nhất. Điều này tạo ra kết quả đầu ra toàn diện và chi tiết hơn so với bất kỳ phương pháp phân đoạn nào có thể đạt được riêng lẻ, cho phép máy móc nhận thức môi trường thị giác với mức độ chi tiết gần hơn với thị giác của con người. Thuật ngữ này được giới thiệu trong bài báo đột phá năm 2018 "Phân đoạn toàn cảnh" của các nhà nghiên cứu từ FAIR.

Panoptic so với các loại phân đoạn khác

Để nắm bắt đầy đủ về phân đoạn toàn cảnh, sẽ hữu ích khi so sánh nó với các thành phần cấu thành của nó:

  • Phân đoạn ngữ nghĩa : Kỹ thuật này phân loại từng pixel trong ảnh vào một danh mục cụ thể. Ví dụ, nó sẽ gán nhãn tất cả các pixel thuộc về ô tô là "ô tô" và tất cả các pixel thuộc về đường là "đường". Tuy nhiên, nó không phân biệt giữa các trường hợp khác nhau của cùng một lớp đối tượng. Hai chiếc ô tô riêng biệt nằm cạnh nhau sẽ cùng thuộc một bản đồ pixel "ô tô".
  • Phân đoạn phiên bản : Phương pháp này phát hiện và phân đoạn các đối tượng riêng lẻ, thường được gọi là "vật thể" (ví dụ: ô tô, người đi bộ, động vật). Phương pháp này gán một mặt nạ duy nhất cho mỗi trường hợp đối tượng được phát hiện, chẳng hạn như car_1, car_2, Và pedestrian_1Tuy nhiên, phân đoạn trường hợp thường bỏ qua các vùng nền vô định hình hoặc "thứ" (ví dụ: bầu trời, đường, cỏ, tường) không có hình dạng hoặc số lượng riêng biệt.
  • Phân đoạn toàn cảnh: Phương pháp này kết hợp điểm mạnh của cả phân đoạn ngữ nghĩa và phân đoạn thực thể. Nó phân đoạn từng pixel trong ảnh, cung cấp nhãn lớp cho cả "vật thể" và "đồ vật". Quan trọng hơn, nó còn gán một ID thực thể duy nhất cho mỗi "vật thể", mang lại một diễn giải cảnh hoàn chỉnh và thống nhất. Ví dụ, một mô hình toàn cảnh không chỉ dán nhãn bầu trời và đường phố mà còn xác định và phân định car_1, car_2, Và pedestrian_1 như những thực thể riêng biệt. Cách tiếp cận toàn diện này rất quan trọng đối với Ứng dụng AI.

Ứng dụng của phân đoạn toàn cảnh

Việc hiểu biết chi tiết về bối cảnh được cung cấp bởi phân đoạn toàn cảnh là vô cùng có giá trị trong nhiều lĩnh vực:

  • Xe tự hành : Xe tự lái cần hiểu biết toàn diện về môi trường xung quanh để định hướng an toàn. Phân vùng toàn cảnh cho phép chúng nhận dạng các bề mặt vô định hình như đường và vỉa hè ("đồ vật"), đồng thời phân biệt từng xe, người đi bộ và người đi xe đạp ("đồ vật"), ngay cả khi chúng chồng lên nhau. Nhận thức chi tiết này, như được chứng minh trong các hệ thống từ các công ty như Waymo , rất quan trọng cho việc lập kế hoạch đường đi an toàn và ra quyết định. Xem cách Ultralytics đóng góp vào AI trong các giải pháp ô tô .
  • Phân tích hình ảnh y tế : Trong quá trình phân tích các hình ảnh quét y tế như MRI hoặc CT , phân đoạn toàn cảnh có thể phân biệt các loại mô khác nhau ("vật chất") đồng thời xác định các trường hợp cụ thể của các cấu trúc như khối u hoặc tế bào riêng lẻ ("vật chất"). Điều này hỗ trợ chẩn đoán chính xác hơn, hỗ trợ lập kế hoạch phẫu thuật và theo dõi tiến triển của bệnh. Bạn có thể tìm hiểu thêm về các tác vụ liên quan như sử dụng YOLO11 để phát hiện khối u .
  • Robot : Để robot tương tác hiệu quả với môi trường, chúng phải hiểu cả bố cục chung (tường, sàn) và các vật thể cụ thể mà chúng có thể thao tác (dụng cụ, bộ phận). Phân đoạn toàn cảnh cung cấp góc nhìn thống nhất này, cải thiện khả năng điều hướng và tương tác giữa người và robot trong các môi trường phức tạp như nhà kho và nhà máy. Tìm hiểu thêm về vai trò của AI trong robot .
  • Thực tế tăng cường (AR): Các ứng dụng AR sử dụng phân đoạn toàn cảnh để kết hợp liền mạch các vật thể ảo với thế giới thực. Bằng cách hiểu vị trí của cả bề mặt nền và vật thể tiền cảnh, hệ thống AR có thể đặt nội dung ảo một cách chân thực, xử lý chính xác các hiện tượng che khuất. Điều này đã dẫn đến những tiến bộ vượt bậc trong công nghệ AR .
  • Phân tích ảnh vệ tinh : Kỹ thuật này được sử dụng để lập bản đồ chi tiết về lớp phủ đất, phân biệt giữa các loại diện tích lớn như rừng hoặc vùng nước ("đồ vật") và các công trình riêng lẻ như tòa nhà hoặc phương tiện ("đồ vật"). Các cơ quan chính phủ như USGS sử dụng dữ liệu này để giám sát môi trường và quy hoạch đô thị.

Mô hình và triển khai

Các mô hình phân đoạn toàn cảnh thường được xây dựng bằng các nền tảng học sâu như PyTorch và được đào tạo trên các tập dữ liệu quy mô lớn như COCO-PanopticCityscapes . Trong khi các mô hình Ultralytics như YOLO11 mang lại hiệu suất vượt trội trong các tác vụ cốt lõi như phát hiện đối tượngphân đoạn thực thể , vốn là những khối xây dựng thiết yếu, thì phân đoạn toàn cảnh đại diện cho cấp độ hiểu biết bối cảnh tích hợp tiếp theo. Khi nghiên cứu tại các tổ chức như Google AIMeta AI tiếp tục, khả năng của các mô hình toàn diện này không ngừng được cải thiện, mở đường cho các hệ thống AI tinh vi và có nhận thức hơn. Bạn có thể quản lý và đào tạo các mô hình cho các tác vụ liên quan bằng các nền tảng như Ultralytics HUB .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard