Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phân vùng toàn cảnh

Khám phá cách phân vùng toàn cảnh hợp nhất phân vùng ngữ nghĩa và phân vùng thể hiện để hiểu chính xác cảnh ở cấp độ pixel trong các ứng dụng AI.

Phân đoạn toàn cảnh là một tác vụ thị giác máy tính (CV) thống nhất, kết hợp khả năng của hai phương pháp riêng biệt —phân đoạn ngữ nghĩaphân đoạn thực thể —để cung cấp khả năng hiểu toàn diện ở cấp độ pixel của một hình ảnh. Trong khi các phương pháp khác có thể chỉ tập trung vào việc xác định đối tượng hoặc phân loại vùng, phân đoạn toàn cảnh gán một nhãn duy nhất cho mỗi pixel trong một cảnh trực quan. Quá trình này phân biệt giữa "thứ"—các vùng nền vô định hình như bầu trời, đường xá hoặc cỏ—và "thứ"—các đối tượng có thể đếm được như người, xe cộ và động vật. Bằng cách kết nối các kỹ thuật này, các hệ thống trí tuệ nhân tạo (AI) đạt được cái nhìn toàn diện về môi trường xung quanh, mô phỏng nhận thức chi tiết của thị giác con người.

Sự khác biệt giữa các kỹ thuật phân đoạn

Để nắm bắt đầy đủ giá trị của phân đoạn toàn cảnh, cần phân biệt nó với các nhiệm vụ phân đoạn hình ảnh liên quan:

  • Phân đoạn ngữ nghĩa : Phương pháp này gán nhãn lớp cho mỗi pixel nhưng coi nhiều đối tượng cùng loại là một thực thể duy nhất. Ví dụ, một đám đông được gắn nhãn là một vùng "người" thống nhất, mà không phân biệt từng thành viên.
  • Phân đoạn thực thể : Kỹ thuật này tập trung hoàn toàn vào việc xác định và phân định các đối tượng đếm được riêng biệt ("vật"). Kỹ thuật này tạo ra một hộp giới hạn và mặt nạ chính xác cho mỗi "ô tô" hoặc "người đi bộ", nhưng thường bỏ qua các yếu tố nền.
  • Phân đoạn toàn cảnh: Phương pháp này kết hợp cả hai, đảm bảo không có điểm ảnh nào bị bỏ sót. Nó cung cấp bối cảnh cho phần nền ("đồ vật") trong khi vẫn duy trì tính duy nhất của các đối tượng tiền cảnh ("vật"). Khái niệm này đã được chính thức hóa trong một bài báo mang tính bước ngoặt của FAIR (Meta AI) , thiết lập một tiêu chuẩn nghiêm ngặt cho việc phân tích toàn bộ cảnh.

Mô hình toàn cảnh hoạt động như thế nào

Kiến trúc toàn cảnh hiện đại thường tận dụng các khuôn khổ học sâu (DL) mạnh mẽ. Chúng thường sử dụng một bộ trích xuất tính năng chia sẻ, hay còn gọi là xương sống , chẳng hạn như Mạng Nơ-ron Tích chập (CNN) hoặc Bộ chuyển đổi Tầm nhìn (ViT) . Mạng sau đó được chia thành hai đầu chuyên biệt: một đầu để phân tích ngữ nghĩa và một đầu để nhận dạng ví dụ. Các thuật toán tiên tiến sẽ hợp nhất các đầu ra này để giải quyết các xung đột, chẳng hạn như các dự đoán chồng chéo, tạo ra một bản đồ toàn cảnh gắn kết.

Việc đào tạo các mô hình này đòi hỏi các tập dữ liệu được chú thích toàn diện. Các chuẩn mực phổ biến bao gồm Bộ dữ liệu COCO , cung cấp một loạt các đối tượng hàng ngày đa dạng, và Cityscapes , chuyên về các cảnh đường phố đô thị thiết yếu cho nghiên cứu ô tô.

Các Ứng dụng Thực tế

Chi tiết cụ thể do phân đoạn toàn cảnh cung cấp đang chuyển đổi các ngành công nghiệp dựa vào máy học (ML) để điều hướng và tương tác với thế giới vật lý.

  • Xe tự hành : Xe tự lái của các công ty như WaymoTesla phụ thuộc vào khả năng hiểu toàn cảnh. Mô hình toàn cảnh cho phép xe xác định các bề mặt có thể lái được (ngữ nghĩa là "đồ vật") đồng thời theo dõi quỹ đạo của từng người đi bộ và các phương tiện khác (ví dụ: "đồ vật").
  • Phân tích hình ảnh y tế : Trong chăm sóc sức khỏe, độ chính xác là yếu tố then chốt. Việc phân tích ảnh chụp MRI thường đòi hỏi phải phân biệt giữa các loại mô chung và các bất thường cụ thể. Phân đoạn toàn cảnh giúp các bác sĩ chẩn đoán hình ảnh xác định các cơ quan nền trong khi đếm và đo từng tế bào khối u, hỗ trợ phát hiện khối u chính xác.
  • Robot và Nông nghiệp: Robot trong môi trường phi cấu trúc sử dụng công nghệ này để thao tác và điều hướng. Trong nông nghiệp chính xác , máy gặt tự động có thể phân biệt các hàng cây trồng (nền) với từng quả chín (từng quả) để hái quả mà không làm hỏng cây.

Phân đoạn trường hợp với YOLO

Trong khi kiến trúc toàn cảnh có thể tốn nhiều tài nguyên tính toán, thành phần "mọi thứ" - xác định các trường hợp đối tượng riêng biệt - được Ultralytics YOLO11 xử lý hiệu quả. YOLO11 cung cấp khả năng suy luận thời gian thực tiên tiến, là lựa chọn tuyệt vời cho các ứng dụng yêu cầu tốc độ và độ chính xác.

Sau đây là Python ví dụ minh họa cách sử dụng ultralytics gói để thực hiện phân đoạn phiên bản, một khối xây dựng quan trọng của sự hiểu biết toàn cảnh:

from ultralytics import YOLO

# Load a pretrained YOLO11 instance segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference to detect and segment individual objects ('things')
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with segmentation masks
results[0].show()

Đối với các nhà phát triển xây dựng các quy trình phức tạp, các khung như PyTorch và các thư viện như OpenCV cho phép xử lý sâu hơn các bản đồ phân đoạn này. Bạn có thể tìm hiểu thêm về việc đào tạo các mô hình phân đoạn tùy chỉnh để phù hợp với nhu cầu cụ thể của dự án trong Ultralytics tài liệu.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay