Khám phá cách phân vùng toàn cảnh hợp nhất phân vùng ngữ nghĩa và phân vùng thể hiện để hiểu chính xác cảnh ở cấp độ pixel trong các ứng dụng AI.
Phân đoạn toàn cảnh là một tác vụ thị giác máy tính (CV) thống nhất, kết hợp khả năng của hai phương pháp riêng biệt —phân đoạn ngữ nghĩa và phân đoạn thực thể —để cung cấp khả năng hiểu toàn diện ở cấp độ pixel của một hình ảnh. Trong khi các phương pháp khác có thể chỉ tập trung vào việc xác định đối tượng hoặc phân loại vùng, phân đoạn toàn cảnh gán một nhãn duy nhất cho mỗi pixel trong một cảnh trực quan. Quá trình này phân biệt giữa "thứ"—các vùng nền vô định hình như bầu trời, đường xá hoặc cỏ—và "thứ"—các đối tượng có thể đếm được như người, xe cộ và động vật. Bằng cách kết nối các kỹ thuật này, các hệ thống trí tuệ nhân tạo (AI) đạt được cái nhìn toàn diện về môi trường xung quanh, mô phỏng nhận thức chi tiết của thị giác con người.
Để nắm bắt đầy đủ giá trị của phân đoạn toàn cảnh, cần phân biệt nó với các nhiệm vụ phân đoạn hình ảnh liên quan:
Kiến trúc toàn cảnh hiện đại thường tận dụng các khuôn khổ học sâu (DL) mạnh mẽ. Chúng thường sử dụng một bộ trích xuất tính năng chia sẻ, hay còn gọi là xương sống , chẳng hạn như Mạng Nơ-ron Tích chập (CNN) hoặc Bộ chuyển đổi Tầm nhìn (ViT) . Mạng sau đó được chia thành hai đầu chuyên biệt: một đầu để phân tích ngữ nghĩa và một đầu để nhận dạng ví dụ. Các thuật toán tiên tiến sẽ hợp nhất các đầu ra này để giải quyết các xung đột, chẳng hạn như các dự đoán chồng chéo, tạo ra một bản đồ toàn cảnh gắn kết.
Việc đào tạo các mô hình này đòi hỏi các tập dữ liệu được chú thích toàn diện. Các chuẩn mực phổ biến bao gồm Bộ dữ liệu COCO , cung cấp một loạt các đối tượng hàng ngày đa dạng, và Cityscapes , chuyên về các cảnh đường phố đô thị thiết yếu cho nghiên cứu ô tô.
Chi tiết cụ thể do phân đoạn toàn cảnh cung cấp đang chuyển đổi các ngành công nghiệp dựa vào máy học (ML) để điều hướng và tương tác với thế giới vật lý.
Trong khi kiến trúc toàn cảnh có thể tốn nhiều tài nguyên tính toán, thành phần "mọi thứ" - xác định các trường hợp đối tượng riêng biệt - được Ultralytics YOLO11 xử lý hiệu quả. YOLO11 cung cấp khả năng suy luận thời gian thực tiên tiến, là lựa chọn tuyệt vời cho các ứng dụng yêu cầu tốc độ và độ chính xác.
Sau đây là Python ví dụ minh họa cách sử dụng
ultralytics gói để thực hiện phân đoạn phiên bản, một khối xây dựng quan trọng của sự hiểu biết toàn cảnh:
from ultralytics import YOLO
# Load a pretrained YOLO11 instance segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference to detect and segment individual objects ('things')
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with segmentation masks
results[0].show()
Đối với các nhà phát triển xây dựng các quy trình phức tạp, các khung như PyTorch và các thư viện như OpenCV cho phép xử lý sâu hơn các bản đồ phân đoạn này. Bạn có thể tìm hiểu thêm về việc đào tạo các mô hình phân đoạn tùy chỉnh để phù hợp với nhu cầu cụ thể của dự án trong Ultralytics tài liệu.