Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phân vùng toàn cảnh

Khám phá phân đoạn toàn cảnh để thống nhất phân đoạn ngữ nghĩa và phân đoạn đối tượng. Tìm hiểu cách thực hiện Ultralytics YOLO26 cung cấp khả năng hiểu bối cảnh chính xác cho các dự án AI.

Phân đoạn toàn cảnh là một nhiệm vụ thị giác máy tính (CV) toàn diện, kết hợp hai hình thức phân tích hình ảnh riêng biệt: phân đoạn ngữ nghĩa và phân đoạn đối tượng. Trong khi các phương pháp truyền thống xử lý các nhiệm vụ này một cách riêng biệt—hoặc phân loại các vùng nền như "bầu trời" hoặc "cỏ" nói chung, hoặc phát hiện các đối tượng cụ thể như "ô tô" hoặc "người"—thì phân đoạn toàn cảnh kết hợp chúng thành một khung thống nhất. Phương pháp này gán một giá trị duy nhất cho mỗi pixel trong hình ảnh, cung cấp sự hiểu biết toàn diện về khung cảnh, phân biệt giữa các đối tượng có thể đếm được (được gọi là "vật thể") và các vùng nền vô định hình (được gọi là "nội dung"). Bằng cách đảm bảo rằng mọi pixel đều được tính đến và phân loại, kỹ thuật này mô phỏng nhận thức thị giác của con người một cách chính xác hơn so với các phương pháp phát hiện riêng lẻ.

Khái niệm cốt lõi: Vật chất so với đồ vật

Để hiểu đầy đủ về phân đoạn toàn cảnh, điều hữu ích là phải hiểu sự phân đôi của thông tin thị giác mà nó xử lý. Nhiệm vụ này chia thế giới thị giác thành hai loại chính:

  • Các Danh mục Đối tượng : Chúng đại diện cho các vùng vô định hình có kết cấu hoặc chất liệu tương tự mà không thể đếm được. Ví dụ bao gồm đường, nước, cỏ, bầu trời và tường. Trong phân tích toàn cảnh, tất cả các pixel thuộc về "đường" được nhóm lại thành một vùng ngữ nghĩa duy nhất vì việc phân biệt giữa "đường" là khó khăn. segment A" và "đường" segment "B" thường không liên quan.
  • Các loại đối tượng : Đây là những đối tượng có thể đếm được với hình dạng và ranh giới xác định. Ví dụ bao gồm người đi bộ, phương tiện giao thông, động vật và công cụ. Mô hình toàn cảnh phải xác định mỗi "đối tượng" là một thực thể riêng biệt, đảm bảo rằng hai người đứng cạnh nhau được nhận dạng là hai cá thể riêng biệt (ví dụ: "Người A" và "Người B") chứ không phải là một khối hợp nhất.

Sự phân biệt này rất quan trọng đối với các hệ thống trí tuệ nhân tạo (AI) tiên tiến, cho phép chúng điều hướng môi trường đồng thời tương tác với các đối tượng cụ thể.

Cách thức hoạt động của kiến ​​trúc toàn cảnh

Các kiến ​​trúc phân đoạn toàn cảnh hiện đại thường sử dụng một nền tảng học sâu (DL) mạnh mẽ, chẳng hạn như Mạng nơ-ron tích chập (CNN) hoặc Bộ chuyển đổi thị giác (ViT) , để trích xuất các biểu diễn đặc trưng phong phú từ một hình ảnh. Mạng này thường chia thành hai nhánh hoặc "đầu":

  1. Đầu ngữ nghĩa: Nhánh này dự đoán nhãn lớp cho mỗi pixel, tạo ra một bản đồ chi tiết về "các đối tượng" trong cảnh.
  2. Đầu phiên bản: Đồng thời, nhánh này sử dụng các kỹ thuật tương tự như phát hiện đối tượng để định vị "các vật thể" và tạo mặt nạ cho chúng.

Sau đó, một mô-đun hợp nhất hoặc bước xử lý hậu kỳ sẽ giải quyết các xung đột giữa các đầu ra này—ví dụ, quyết định xem một pixel thuộc về một đối tượng "người" hay bức tường "phông nền" phía sau họ—để tạo ra bản đồ phân đoạn toàn cảnh cuối cùng, không chồng chéo.

Các Ứng dụng Thực tế

Tính chất toàn diện của phân vùng panoptic khiến nó trở nên không thể thiếu đối với các ngành công nghiệp mà an toàn và bối cảnh là tối quan trọng.

  • Xe tự hành : Xe tự lái dựa vào khả năng nhận thức toàn cảnh để di chuyển an toàn. Thành phần ngữ nghĩa xác định các bề mặt có thể lái được (đường) và ranh giới (vỉa hè), trong khi thành phần thực thể theo dõi các chướng ngại vật động như người đi bộ và các phương tiện khác. Cái nhìn thống nhất này giúp các thuật toán lập kế hoạch của xe đưa ra các quyết định an toàn hơn trong các tình huống quản lý giao thông phức tạp.
  • Phân tích hình ảnh y tế : Trong bệnh lý học kỹ thuật số, việc phân tích mẫu mô thường yêu cầu phân đoạn cấu trúc mô tổng thể (vật chất) đồng thời đếm và đo lường các loại tế bào hoặc khối u cụ thể (đối tượng). Sự phân tích chi tiết này giúp các bác sĩ định lượng và chẩn đoán bệnh chính xác.
  • Robot học : Robot dịch vụ hoạt động trong môi trường không có cấu trúc, chẳng hạn như nhà ở hoặc nhà kho, cần phân biệt giữa sàn nhà mà chúng có thể di chuyển (phông nền) và các vật thể mà chúng cần thao tác hoặc tránh (các đối tượng).

Triển khai phân đoạn với Ultralytics

Mặc dù việc huấn luyện toàn diện có thể phức tạp, các nhà phát triển có thể đạt được phân đoạn đối tượng với độ chính xác cao — một thành phần quan trọng của bài toán toàn cảnh — bằng cách sử dụng Ultralytics YOLO26 . Mô hình tiên tiến này cung cấp hiệu suất thời gian thực và được tối ưu hóa cho việc triển khai ở biên mạng.

Sau đây Python Ví dụ này minh họa cách tải mô hình phân đoạn đã được huấn luyện trước và chạy suy luận để phân lập các đối tượng riêng biệt:

from ultralytics import YOLO

# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with overlaid segmentation masks
results[0].show()

Đối với các nhóm muốn quản lý dữ liệu huấn luyện và tự động hóa quy trình chú thích, Nền tảng Ultralytics cung cấp một bộ công cụ để quản lý tập dữ liệu và huấn luyện mô hình. Chú thích dữ liệu chất lượng cao rất quan trọng đối với các tác vụ phân đoạn, vì các mô hình yêu cầu nhãn chính xác ở cấp độ pixel để học hiệu quả.

Phân biệt các thuật ngữ liên quan

Hiểu rõ sự khác biệt tinh tế giữa các loại phân khúc là điều vô cùng quan trọng để lựa chọn mô hình phù hợp cho dự án của bạn:

  • Phân đoạn ngữ nghĩa : Chỉ tập trung vào việc phân loại các pixel thành các nhóm. Nó trả lời câu hỏi "pixel này thuộc nhóm nào?" (ví dụ: cây, bầu trời) nhưng không thể tách các đối tượng riêng lẻ thuộc cùng một nhóm. Nếu hai chiếc xe chồng lên nhau, chúng sẽ xuất hiện như một khối "xe" lớn duy nhất.
  • Phân đoạn đối tượng : Chỉ tập trung vào việc phát hiện và che giấu các đối tượng có thể đếm được. Nó trả lời câu hỏi "đây là đối tượng nào?" nhưng thường bỏ qua hoàn toàn ngữ cảnh nền.
  • Phân đoạn toàn cảnh: Kết hợp cả hai. Nó trả lời câu hỏi "điểm ảnh này là gì?" và "nó thuộc về đối tượng nào?" cho toàn bộ hình ảnh, đảm bảo không có điểm ảnh nào bị bỏ sót.

Để tìm hiểu thêm về các định dạng tập dữ liệu được sử dụng trong các tác vụ này, bạn có thể xem tài liệu về tập dữ liệu COCO , đây là tiêu chuẩn đánh giá hiệu suất phân đoạn.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay