Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phân đoạn ngữ nghĩa

Khám phá sức mạnh của phân đoạn ngữ nghĩa— classify từng pixel trong hình ảnh để hiểu chính xác bối cảnh. Khám phá các ứng dụng và công cụ ngay!

Phân đoạn ngữ nghĩa là một kỹ thuật nền tảng trong thị giác máy tính (CV) , bao gồm việc gán một nhãn lớp cụ thể cho từng pixel riêng lẻ trong ảnh. Không giống như các tác vụ đơn giản hơn có thể phân loại toàn bộ ảnh hoặc đặt một khung giới hạn xung quanh một vật thể, phân đoạn ngữ nghĩa cung cấp một bản đồ hoàn hảo đến từng pixel của cảnh. Mức độ chi tiết này cho phép máy móc hiểu được ranh giới và hình dạng chính xác của vật thể, phân loại các vùng riêng biệt như "đường", "người", "bầu trời" hoặc "khối u". Bằng cách xử lý ảnh như một tập hợp các pixel đã phân loại thay vì chỉ là tổng của các vật thể, phương pháp này mang lại sự hiểu biết toàn diện về bối cảnh thị giác, điều thiết yếu cho các hệ thống trí tuệ nhân tạo (AI) tiên tiến tương tác với các môi trường phức tạp.

Cơ chế cốt lõi của phân loại cấp độ pixel

Quá trình phân đoạn ngữ nghĩa phụ thuộc rất nhiều vào các mô hình học sâu (DL) , cụ thể là các kiến trúc dựa trên Mạng Nơ-ron Tích chập (CNN) . Các mô hình này được đào tạo trên các tập dữ liệu chú thích lớn, trong đó các chuyên gia chú thích đã gắn nhãn cho từng pixel. Trong quá trình đào tạo, mạng học cách liên kết các đặc điểm cấp thấp như kết cấu và cạnh với các khái niệm ngữ nghĩa cấp cao.

Một mô hình kiến trúc phổ biến liên quan đến cấu trúc mã hóa-giải mã :

  • Bộ mã hóa: Giảm mẫu hình ảnh đầu vào để nắm bắt ngữ cảnh ngữ nghĩa và giảm kích thước không gian.
  • Bộ giải mã: Nâng cấp các tính năng được mã hóa trở lại độ phân giải hình ảnh gốc để tạo bản đồ dự đoán.

Các kiến trúc tiên phong như Mạng Tích chập Hoàn toàn (FCN) đã đặt nền móng bằng cách thay thế các lớp kết nối hoàn toàn bằng các lớp tích chập để xuất bản đồ không gian. Các thiết kế chuyên biệt hơn, chẳng hạn như U-Net , sử dụng kết nối bỏ qua để bảo toàn các chi tiết chi tiết, giúp chúng cực kỳ hiệu quả cho các tác vụ đòi hỏi độ chính xác cao.

phân biệt Phân đoạn ngữ nghĩa với các Nhiệm vụ liên quan

Để chọn đúng công cụ cho một dự án, điều quan trọng là phải phân biệt phân đoạn ngữ nghĩa với các tác vụ thị giác máy tính khác:

  • Phát hiện đối tượng : Xác định đối tượng và định vị chúng bằng các khung giới hạn hình chữ nhật. Nó trả lời câu hỏi "đối tượng ở đâu?" nhưng bỏ qua hình dạng chính xác của đối tượng.
  • Phân đoạn thể hiện : Tương tự như phân đoạn ngữ nghĩa nhưng phân biệt giữa các thể hiện riêng lẻ của cùng một lớp. Ví dụ: trong khi phân đoạn ngữ nghĩa gắn nhãn tất cả các pixel "ô tô" bằng cùng một màu, phân đoạn thể hiện gán một ID duy nhất cho "ô tô 1", "ô tô 2", v.v.
  • Phân loại hình ảnh : Gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: "cảnh bãi biển") mà không xác định vị trí của các thành phần cụ thể.

Các Ứng dụng Thực tế

Khả năng phân tích cảnh ở cấp độ pixel đã thúc đẩy sự đổi mới trong nhiều ngành công nghiệp:

  • Xe tự hành : Xe tự lái sử dụng phân đoạn ngữ nghĩa để xác định bề mặt đường có thể di chuyển, biển báo giao thông, người đi bộ và chướng ngại vật. Các tập dữ liệu như Cityscapes được sử dụng rộng rãi để huấn luyện các mô hình điều hướng an toàn trong môi trường đô thị.
  • Phân tích hình ảnh y tế : Trong chăm sóc sức khỏe, độ chính xác là yếu tố sống còn. Mô hình segment Các cơ quan, tổn thương và khối u trong ảnh chụp MRI hoặc CT. Điều này hỗ trợ các bác sĩ X quang trong việc định lượng thể tích mô và lập kế hoạch phẫu thuật.
  • Phân tích ảnh vệ tinh : Phân đoạn ngữ nghĩa hỗ trợ phân loại lớp phủ đất, theo dõi nạn phá rừng và quy hoạch đô thị. Các tổ chức như NASA sử dụng các kỹ thuật này để theo dõi những thay đổi môi trường trên quy mô toàn cầu.
  • Nông nghiệp chính xác : Nông dân sử dụng phương pháp phân đoạn để phân biệt cây trồng với cỏ dại, cho phép sử dụng thuốc diệt cỏ có mục tiêu giúp giảm lượng hóa chất sử dụng và chi phí.

Triển khai phân đoạn ngữ nghĩa

Các nền tảng hiện đại như PyTorchTensorFlow cung cấp các công cụ để xây dựng các mô hình phân đoạn. Tuy nhiên, các thư viện cấp cao giúp đơn giản hóa quy trình đáng kể. Các mô hình Ultralytics YOLO11 hỗ trợ các tác vụ phân đoạn ngay lập tức, mang lại sự cân bằng giữa tốc độ và độ chính xác, phù hợp cho suy luận thời gian thực .

Ví dụ sau đây minh họa cách tải một chương trình được đào tạo trước YOLO11 mô hình phân đoạn và thực hiện suy luận trên hình ảnh bằng cách sử dụng ultralytics python bưu kiện.

from ultralytics import YOLO

# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the segmentation mask results
results[0].show()

Đối với các nhà phát triển muốn tạo ra các giải pháp tùy chỉnh, các công cụ chú thích như LabelMe hoặc CVAT là thiết yếu để chuẩn bị dữ liệu đào tạo . Sau khi được đào tạo, các mô hình này có thể được triển khai trên các thiết bị biên bằng OpenCV hoặc các định dạng được tối ưu hóa như ONNX để đạt hiệu suất cao trong môi trường sản xuất.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay