Khám phá phân đoạn toàn cảnh để thống nhất phân đoạn ngữ nghĩa và phân đoạn đối tượng. Tìm hiểu cách thực hiện Ultralytics YOLO26 cung cấp khả năng hiểu bối cảnh chính xác cho các dự án AI.
Phân đoạn toàn cảnh là một nhiệm vụ thị giác máy tính (CV) toàn diện, kết hợp hai hình thức phân tích hình ảnh riêng biệt: phân đoạn ngữ nghĩa và phân đoạn đối tượng. Trong khi các phương pháp truyền thống xử lý các nhiệm vụ này một cách riêng biệt—hoặc phân loại các vùng nền như "bầu trời" hoặc "cỏ" nói chung, hoặc phát hiện các đối tượng cụ thể như "ô tô" hoặc "người"—thì phân đoạn toàn cảnh kết hợp chúng thành một khung thống nhất. Phương pháp này gán một giá trị duy nhất cho mỗi pixel trong hình ảnh, cung cấp sự hiểu biết toàn diện về khung cảnh, phân biệt giữa các đối tượng có thể đếm được (được gọi là "vật thể") và các vùng nền vô định hình (được gọi là "nội dung"). Bằng cách đảm bảo rằng mọi pixel đều được tính đến và phân loại, kỹ thuật này mô phỏng nhận thức thị giác của con người một cách chính xác hơn so với các phương pháp phát hiện riêng lẻ.
Để hiểu đầy đủ về phân đoạn toàn cảnh, điều hữu ích là phải hiểu sự phân đôi của thông tin thị giác mà nó xử lý. Nhiệm vụ này chia thế giới thị giác thành hai loại chính:
Sự phân biệt này rất quan trọng đối với các hệ thống trí tuệ nhân tạo (AI) tiên tiến, cho phép chúng điều hướng môi trường đồng thời tương tác với các đối tượng cụ thể.
Các kiến trúc phân đoạn toàn cảnh hiện đại thường sử dụng một nền tảng học sâu (DL) mạnh mẽ, chẳng hạn như Mạng nơ-ron tích chập (CNN) hoặc Bộ chuyển đổi thị giác (ViT) , để trích xuất các biểu diễn đặc trưng phong phú từ một hình ảnh. Mạng này thường chia thành hai nhánh hoặc "đầu":
Sau đó, một mô-đun hợp nhất hoặc bước xử lý hậu kỳ sẽ giải quyết các xung đột giữa các đầu ra này—ví dụ, quyết định xem một pixel thuộc về một đối tượng "người" hay bức tường "phông nền" phía sau họ—để tạo ra bản đồ phân đoạn toàn cảnh cuối cùng, không chồng chéo.
Tính chất toàn diện của phân vùng panoptic khiến nó trở nên không thể thiếu đối với các ngành công nghiệp mà an toàn và bối cảnh là tối quan trọng.
Mặc dù việc huấn luyện toàn diện có thể phức tạp, các nhà phát triển có thể đạt được phân đoạn đối tượng với độ chính xác cao — một thành phần quan trọng của bài toán toàn cảnh — bằng cách sử dụng Ultralytics YOLO26 . Mô hình tiên tiến này cung cấp hiệu suất thời gian thực và được tối ưu hóa cho việc triển khai ở biên mạng.
Sau đây Python Ví dụ này minh họa cách tải mô hình phân đoạn đã được huấn luyện trước và chạy suy luận để phân lập các đối tượng riêng biệt:
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with overlaid segmentation masks
results[0].show()
Đối với các nhóm muốn quản lý dữ liệu huấn luyện và tự động hóa quy trình chú thích, Nền tảng Ultralytics cung cấp một bộ công cụ để quản lý tập dữ liệu và huấn luyện mô hình. Chú thích dữ liệu chất lượng cao rất quan trọng đối với các tác vụ phân đoạn, vì các mô hình yêu cầu nhãn chính xác ở cấp độ pixel để học hiệu quả.
Hiểu rõ sự khác biệt tinh tế giữa các loại phân khúc là điều vô cùng quan trọng để lựa chọn mô hình phù hợp cho dự án của bạn:
Để tìm hiểu thêm về các định dạng tập dữ liệu được sử dụng trong các tác vụ này, bạn có thể xem tài liệu về tập dữ liệu COCO , đây là tiêu chuẩn đánh giá hiệu suất phân đoạn.