Khám phá sức mạnh của phân đoạn ngữ nghĩa— classify từng pixel trong hình ảnh để hiểu chính xác bối cảnh. Khám phá các ứng dụng và công cụ ngay!
Phân đoạn ngữ nghĩa là một kỹ thuật nền tảng trong thị giác máy tính (CV) , bao gồm việc gán một nhãn lớp cụ thể cho từng pixel riêng lẻ trong ảnh. Không giống như các tác vụ đơn giản hơn có thể phân loại toàn bộ ảnh hoặc đặt một khung giới hạn xung quanh một vật thể, phân đoạn ngữ nghĩa cung cấp một bản đồ hoàn hảo đến từng pixel của cảnh. Mức độ chi tiết này cho phép máy móc hiểu được ranh giới và hình dạng chính xác của vật thể, phân loại các vùng riêng biệt như "đường", "người", "bầu trời" hoặc "khối u". Bằng cách xử lý ảnh như một tập hợp các pixel đã phân loại thay vì chỉ là tổng của các vật thể, phương pháp này mang lại sự hiểu biết toàn diện về bối cảnh thị giác, điều thiết yếu cho các hệ thống trí tuệ nhân tạo (AI) tiên tiến tương tác với các môi trường phức tạp.
Quá trình phân đoạn ngữ nghĩa phụ thuộc rất nhiều vào các mô hình học sâu (DL) , cụ thể là các kiến trúc dựa trên Mạng Nơ-ron Tích chập (CNN) . Các mô hình này được đào tạo trên các tập dữ liệu chú thích lớn, trong đó các chuyên gia chú thích đã gắn nhãn cho từng pixel. Trong quá trình đào tạo, mạng học cách liên kết các đặc điểm cấp thấp như kết cấu và cạnh với các khái niệm ngữ nghĩa cấp cao.
Một mô hình kiến trúc phổ biến liên quan đến cấu trúc mã hóa-giải mã :
Các kiến trúc tiên phong như Mạng Tích chập Hoàn toàn (FCN) đã đặt nền móng bằng cách thay thế các lớp kết nối hoàn toàn bằng các lớp tích chập để xuất bản đồ không gian. Các thiết kế chuyên biệt hơn, chẳng hạn như U-Net , sử dụng kết nối bỏ qua để bảo toàn các chi tiết chi tiết, giúp chúng cực kỳ hiệu quả cho các tác vụ đòi hỏi độ chính xác cao.
Để chọn đúng công cụ cho một dự án, điều quan trọng là phải phân biệt phân đoạn ngữ nghĩa với các tác vụ thị giác máy tính khác:
Khả năng phân tích cảnh ở cấp độ pixel đã thúc đẩy sự đổi mới trong nhiều ngành công nghiệp:
Các nền tảng hiện đại như PyTorch và TensorFlow cung cấp các công cụ để xây dựng các mô hình phân đoạn. Tuy nhiên, các thư viện cấp cao giúp đơn giản hóa quy trình đáng kể. Các mô hình Ultralytics YOLO11 hỗ trợ các tác vụ phân đoạn ngay lập tức, mang lại sự cân bằng giữa tốc độ và độ chính xác, phù hợp cho suy luận thời gian thực .
Ví dụ sau đây minh họa cách tải một chương trình được đào tạo trước YOLO11 mô hình phân đoạn và thực hiện suy luận trên hình ảnh bằng cách sử dụng ultralytics python bưu kiện.
from ultralytics import YOLO
# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the segmentation mask results
results[0].show()
Đối với các nhà phát triển muốn tạo ra các giải pháp tùy chỉnh, các công cụ chú thích như LabelMe hoặc CVAT là thiết yếu để chuẩn bị dữ liệu đào tạo . Sau khi được đào tạo, các mô hình này có thể được triển khai trên các thiết bị biên bằng OpenCV hoặc các định dạng được tối ưu hóa như ONNX để đạt hiệu suất cao trong môi trường sản xuất.