Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phân vùng ảnh

Khám phá sức mạnh của phân đoạn hình ảnh với Ultralytics YOLO . Khám phá độ chính xác ở cấp độ pixel, các loại, ứng dụng và trường hợp sử dụng AI trong thế giới thực.

Phân đoạn ảnh là một kỹ thuật cốt lõi trong thị giác máy tính (CV) , bao gồm việc phân chia một ảnh kỹ thuật số thành nhiều nhóm điểm ảnh con, thường được gọi là các phân đoạn ảnh. Mục tiêu chính là đơn giản hóa việc biểu diễn ảnh thành một hình ảnh có ý nghĩa hơn và dễ phân tích hơn. Không giống như phát hiện đối tượng , vốn định vị các đối tượng trong một khung giới hạn hình chữ nhật, phân đoạn ảnh cung cấp một bản đồ chính xác ở cấp độ điểm ảnh về hình dạng của đối tượng. Quá trình này gán nhãn cho mỗi điểm ảnh trong ảnh, cho phép các mô hình trí tuệ nhân tạo (AI) hiểu được ranh giới và đường viền chính xác của các thực thể trong một cảnh.

Tầm quan trọng của độ chính xác ở cấp độ điểm ảnh

Trong nhiều quy trình học máy (ML) hiện đại, việc biết vị trí gần đúng của một vật thể là chưa đủ. Các ứng dụng yêu cầu tương tác với thế giới vật lý—chẳng hạn như robot cầm một gói hàng hoặc xe hơi di chuyển trên đường quanh co—đòi hỏi sự hiểu biết chi tiết về hình học. Phân đoạn hình ảnh thu hẹp khoảng cách này bằng cách chuyển đổi dữ liệu hình ảnh thô thành một tập hợp các vùng được phân loại. Khả năng này được hỗ trợ bởi các kiến trúc học sâu (DL) tiên tiến, đặc biệt là Mạng Nơ-ron Tích chập (CNN) , giúp trích xuất các đặc điểm không gian để phân biệt giữa các vật thể tiền cảnh và hậu cảnh.

Các Loại Phân Đoạn Ảnh

Hiểu rõ nhiệm vụ phân đoạn cụ thể là rất quan trọng để lựa chọn kiến trúc mô hình phù hợp. Ba hạng mục chính là:

  • Phân đoạn ngữ nghĩa : Phương pháp này xử lý nhiều đối tượng cùng loại như một thực thể duy nhất. Ví dụ, trong một cảnh đường phố, tất cả các điểm ảnh thuộc "đường" được tô màu xám, và tất cả các điểm ảnh thuộc "ô tô" được tô màu xanh lam. Phương pháp này không phân biệt giữa hai chiếc ô tô khác nhau; nó chỉ đơn giản xác định rằng cả hai đều là phương tiện. Phương pháp này thường được triển khai bằng các kiến trúc như U-Net , ban đầu được phát triển cho mục đích phân đoạn ảnh y sinh.
  • Phân đoạn thể hiện : Kỹ thuật này tiến thêm một bước nữa bằng cách xác định các đối tượng riêng biệt. Nếu có năm chiếc xe trong một hình ảnh, phân đoạn thể hiện sẽ tạo ra năm mặt nạ riêng biệt, cho phép hệ thống đếm và track mỗi xe một cách độc lập. Đây là nhiệm vụ chính được thực hiện bởi các mô hình phân đoạn YOLO11 Ultralytics , cân bằng giữa tốc độ và độ chính xác cho các ứng dụng thời gian thực.
  • Phân đoạn toàn cảnh : Một phương pháp lai kết hợp phân đoạn ngữ nghĩa và phân đoạn thể hiện. Phương pháp này cung cấp khả năng hiểu toàn cảnh bằng cách gán nhãn lớp cho từng pixel (nền như bầu trời và đường xá) đồng thời xác định duy nhất các đối tượng có thể đếm được (như người và xe cộ).

Các Ứng dụng Thực tế

Khả năng phân định ranh giới chính xác khiến phân khúc trở nên không thể thiếu trong nhiều ngành công nghiệp khác nhau:

  • Phân tích hình ảnh y tế : Phân đoạn rất quan trọng trong chăm sóc sức khỏe để phân tích các hình ảnh quét như MRI hoặc CT. Bằng cách phác thảo chính xác khối u, cơ quan hoặc tổn thương, các mô hình AI hỗ trợ các bác sĩ X quang trong việc chẩn đoán và lập kế hoạch phẫu thuật. Ví dụ, việc xác định chính xác thể tích của khối u não cho phép xạ trị nhắm mục tiêu tốt hơn, giảm thiểu tổn thương cho các mô khỏe mạnh.
  • Xe tự hành : Xe tự hành phụ thuộc rất nhiều vào phân đoạn đường để định hướng an toàn. Các mô hình xử lý dữ liệu video để xác định làn đường, vỉa hè, người đi bộ và chướng ngại vật có thể di chuyển. Các tổ chức như SAE International định nghĩa các mức độ tự hành đòi hỏi khả năng nhận thức môi trường chi tiết này để đưa ra quyết định nhanh chóng.
  • Nông nghiệp chính xác: Trong AI nông nghiệp , phân đoạn giúp theo dõi sức khỏe cây trồng. Máy bay không người lái được trang bị camera đa phổ có thể segment các cánh đồng để xác định tình trạng cỏ dại hoặc thiếu hụt chất dinh dưỡng trên từng lá, cho phép ứng dụng thuốc diệt cỏ có mục tiêu.

Triển khai kỹ thuật với YOLO

Các khuôn khổ hiện đại đã đơn giản hóa việc triển khai các tác vụ phân đoạn. Trong khi các bộ phát hiện hai giai đoạn cũ hơn như Mask R-CNN chính xác nhưng chậm, các mô hình một giai đoạn đã cách mạng hóa lĩnh vực này bằng cách cung cấp khả năng suy luận thời gian thực . Ví dụ, mô hình YOLO11 Ultralytics hỗ trợ phân đoạn thực thể một cách tự nhiên. Nhìn về tương lai, YOLO26 đang được phát triển để tối ưu hóa hơn nữa các khả năng này với quy trình xử lý đầu cuối.

Các nhà phát triển có thể sử dụng các thư viện chuẩn như OpenCV để xử lý trước và trực quan hóa, trong khi sử dụng các khuôn khổ dựa trên PyTorch để thực hiện suy luận mô hình.

Sau đây là một ví dụ ngắn gọn về cách thực hiện phân đoạn phiên bản bằng cách sử dụng một YOLO11 mô hình trong Python :

from ultralytics import YOLO

# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference on an image (can be a local path or URL)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with segmentation masks overlaid
results[0].show()

Đoạn mã này tự động xử lý các tác vụ phức tạp của việc trích xuất tính năng, hồi quy hộp giới hạn và tạo mặt nạ, cho phép các nhà phát triển tập trung vào việc tích hợp kết quả phân đoạn vào các ứng dụng lớn hơn của họ.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay