Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phân đoạn ngữ nghĩa

Khám phá phân đoạn ngữ nghĩa để hiểu hình ảnh ở cấp độ pixel. Tìm hiểu cách huấn luyện và triển khai các mô hình phân đoạn chính xác bằng cách sử dụng Ultralytics Hôm nay là YOLO26.

Phân đoạn ngữ nghĩa là một nhiệm vụ thị giác máy tính liên quan đến việc chia một hình ảnh thành các vùng riêng biệt bằng cách gán một nhãn lớp cụ thể cho từng pixel. Không giống như các nhiệm vụ đơn giản hơn như phân loại hình ảnh , chỉ gán một nhãn duy nhất cho toàn bộ hình ảnh, hoặc phát hiện đối tượng , vẽ các khung bao quanh đối tượng, phân đoạn ngữ nghĩa cung cấp sự hiểu biết ở cấp độ pixel về khung cảnh. Phân tích chi tiết này rất quan trọng đối với các ứng dụng mà hình dạng và ranh giới chính xác của một đối tượng cũng quan trọng như danh tính của nó. Nó cho phép máy móc "nhìn" thế giới giống như con người hơn, phân biệt chính xác các pixel tạo nên một con đường, một người đi bộ hoặc một khối u trong ảnh chụp y tế.

Cách thức hoạt động của phân đoạn ngữ nghĩa

Về bản chất, phân đoạn ngữ nghĩa coi một hình ảnh như một lưới các điểm ảnh cần được phân loại. Các mô hình học sâu, đặc biệt là Mạng nơ-ron tích chập (CNN) , là kiến ​​trúc tiêu chuẩn cho nhiệm vụ này. Một kiến ​​trúc điển hình, chẳng hạn như U-Net được sử dụng rộng rãi, sử dụng cấu trúc mã hóa-giải mã. Bộ mã hóa nén hình ảnh đầu vào để trích xuất các đặc trưng cấp cao (như kết cấu và hình dạng), trong khi bộ giải mã nâng độ phân giải của các đặc trưng này trở lại độ phân giải hình ảnh gốc để tạo ra mặt nạ phân đoạn chính xác.

Để đạt được điều này, các mô hình được huấn luyện trên các tập dữ liệu lớn đã được chú thích , trong đó người chú thích đã tô màu cẩn thận từng pixel theo lớp của nó. Các công cụ như Nền tảng Ultralytics hỗ trợ quá trình này bằng cách cung cấp các tính năng tự động chú thích giúp tăng tốc độ tạo ra dữ liệu tham chiếu chất lượng cao. Sau khi được huấn luyện, mô hình sẽ xuất ra một mặt nạ trong đó mỗi giá trị pixel tương ứng với một ID lớp, về cơ bản là "tô màu" cho hình ảnh với ý nghĩa.

Phân biệt các khái niệm liên quan

Người ta thường nhầm lẫn phân đoạn ngữ nghĩa với các tác vụ cấp độ pixel khác. Hiểu rõ sự khác biệt là chìa khóa để lựa chọn phương pháp phù hợp cho một dự án:

  • Phân đoạn đối tượng : Trong khi phân đoạn ngữ nghĩa coi tất cả các đối tượng cùng lớp là một thực thể duy nhất (ví dụ: tất cả "ô tô" đều có màu xanh lam), phân đoạn đối tượng phân biệt giữa các đối tượng riêng lẻ (ví dụ: "Ô tô A" màu xanh lam, "Ô tô B" màu đỏ).
  • Phân đoạn toàn cảnh : Phương pháp này kết hợp cả hai khái niệm. Nó gán một lớp cho mỗi pixel (ngữ nghĩa) đồng thời phân tách các thể hiện riêng lẻ của các đối tượng có thể đếm được (thể hiện), cung cấp khả năng hiểu toàn diện nhất về khung cảnh.

Các Ứng dụng Thực tế

Khả năng phân tích dữ liệu hình ảnh với độ chính xác từng pixel thúc đẩy sự đổi mới trong nhiều ngành công nghiệp quan trọng:

  • Trí tuệ nhân tạo trong ngành ô tô : Xe tự lái phụ thuộc rất nhiều vào việc phân vùng để di chuyển an toàn. Bằng cách xác định các khu vực có thể lái xe so với vỉa hè, và vạch ra chính xác người đi bộ, ô tô và chướng ngại vật, hệ thống tự lái có thể đưa ra các quyết định quan trọng trong thời gian thực.
  • Trí tuệ nhân tạo trong chăm sóc sức khỏe : Trong chẩn đoán hình ảnh y tế, các mô hình segment Hình ảnh chụp CT và MRI cho phép xác định các cơ quan, tổn thương hoặc khối u. Điều này hỗ trợ các bác sĩ X quang tính toán thể tích khối u để lập kế hoạch điều trị hoặc hướng dẫn các công cụ phẫu thuật robot với độ chính xác cao.
  • Trí tuệ nhân tạo trong nông nghiệp : Nông dân sử dụng hình ảnh từ máy bay không người lái và phân đoạn ảnh để theo dõi sức khỏe cây trồng. Bằng cách phân loại các điểm ảnh là "cây trồng khỏe mạnh", "cỏ dại" hoặc "đất", hệ thống tự động có thể nhắm mục tiêu phun thuốc diệt cỏ, giảm lượng hóa chất sử dụng và tối ưu hóa năng suất.

Triển khai phân đoạn với Ultralytics

Các mô hình phân đoạn hiện đại cần phải cân bằng giữa độ chính xác và tốc độ, đặc biệt là đối với suy luận thời gian thực trên các thiết bị biên. Ultralytics YOLO26 Họ mô hình này bao gồm các mô hình phân đoạn chuyên biệt (được ký hiệu bằng dấu gạch ngang) -seg (hậu tố) có tính chất đầu cuối-đầu cuối tự nhiên, mang lại hiệu suất vượt trội so với các kiến ​​trúc cũ hơn như YOLO11.

Ví dụ sau đây minh họa cách thực hiện phân đoạn trên ảnh bằng cách sử dụng... ultralytics Python Gói này tạo ra các mặt nạ nhị phân để phân định ranh giới đối tượng.

from ultralytics import YOLO

# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()

Thách thức và Định hướng Tương lai

Mặc dù đã có những tiến bộ đáng kể, phân đoạn ngữ nghĩa vẫn đòi hỏi nhiều tài nguyên tính toán. Việc tạo ra phân loại cho từng pixel riêng lẻ yêu cầu lượng tài nguyên GPU và bộ nhớ đáng kể. Các nhà nghiên cứu đang tích cực làm việc để tối ưu hóa các mô hình này nhằm nâng cao hiệu quả, khám phá các kỹ thuật như lượng tử hóa mô hình để chạy các mạng nặng trên điện thoại di động và các thiết bị nhúng.

Hơn nữa, nhu cầu về các tập dữ liệu được gắn nhãn khổng lồ là một trở ngại. Để giải quyết vấn đề này, ngành công nghiệp đang hướng tới việc tạo dữ liệu tổng hợphọc tự giám sát , cho phép các mô hình học hỏi từ hình ảnh thô mà không cần hàng triệu nhãn pixel thủ công. Khi các công nghệ này trưởng thành, chúng ta có thể kỳ vọng phân đoạn hình ảnh sẽ trở nên phổ biến hơn nữa trong các ứng dụng camera thông minh, robot và thực tế tăng cường.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay