Thuật ngữ

Phân đoạn trường hợp

Khám phá cách phân đoạn trường hợp tinh chỉnh khả năng phát hiện đối tượng với độ chính xác đến từng pixel, cho phép tạo mặt nạ đối tượng chi tiết cho các ứng dụng AI.

Phân đoạn thể hiện là một tác vụ thị giác máy tính (CV) nâng cao, giúp xác định và phân định các đối tượng riêng lẻ trong một hình ảnh ở cấp độ pixel. Không giống như các tác vụ thị giác khác, nó không chỉ phân loại hình ảnh hoặc vẽ khung bao quanh các đối tượng; thay vào đó, nó tạo ra một mặt nạ pixel chính xác cho từng thể hiện đối tượng riêng biệt. Kỹ thuật này cung cấp sự hiểu biết sâu sắc hơn về một cảnh, vì nó có thể phân biệt giữa các đối tượng chồng chéo thuộc cùng một lớp.

Phát hiện trường hợp so với phát hiện ngữ nghĩa và phát hiện đối tượng

Điều quan trọng là phải phân biệt phân đoạn trường hợp với các nhiệm vụ thị giác máy tính liên quan khác.

  • Phát hiện Đối tượng : Nhiệm vụ này xác định sự hiện diện và vị trí của các đối tượng, thường bằng cách vẽ các khung giới hạn hình chữ nhật xung quanh chúng và gán nhãn lớp. Nhiệm vụ này trả lời câu hỏi "Có gì trong ảnh và nó ở đâu?" nhưng không cung cấp thông tin về hình dạng.
  • Phân đoạn ngữ nghĩa : Nhiệm vụ này phân loại từng pixel trong ảnh vào một danh mục cụ thể. Ví dụ: tất cả các pixel thuộc về ô tô sẽ được gán nhãn "ô tô", nhưng không phân biệt được hai chiếc ô tô khác nhau trong ảnh. Nhiệm vụ này trả lời câu hỏi "Mỗi pixel thuộc danh mục nào?".
  • Phân đoạn thể hiện : Kết hợp khả năng phát hiện đối tượng và phân đoạn ngữ nghĩa. Nó phát hiện từng thể hiện đối tượng và tạo ra một mặt nạ phân đoạn duy nhất cho nó. Trong một hình ảnh có ba chiếc xe, phân đoạn thể hiện sẽ tạo ra ba mặt nạ riêng biệt, mỗi mặt nạ tương ứng với một chiếc xe cụ thể.
  • Phân đoạn toàn cảnh : Đây là nhiệm vụ phân đoạn toàn diện nhất, kết hợp phân đoạn ngữ nghĩa và phân đoạn thể hiện. Nó gán cho mỗi pixel một nhãn lớp và một ID thể hiện duy nhất, mang lại sự hiểu biết toàn diện và thống nhất về cảnh.

Phân đoạn phiên bản hoạt động như thế nào

Các mô hình phân đoạn thể hiện thường thực hiện hai chức năng chính: thứ nhất, chúng phát hiện tất cả các thể hiện đối tượng trong một hình ảnh, và thứ hai, chúng tạo ra một mặt nạ phân đoạn cho mỗi thể hiện được phát hiện. Quá trình này đã được phổ biến rộng rãi bởi các kiến trúc như Mask R-CNN , mở rộng các bộ phát hiện đối tượng như Faster R-CNN bằng cách thêm một nhánh song song dự đoán mặt nạ nhị phân cho mỗi vùng quan tâm. Các mô hình hiện đại đã tinh chỉnh hơn nữa quá trình này để có tốc độ và độ chính xác cao hơn, cho phép suy luận thời gian thực trong nhiều ứng dụng. Việc phát triển thường dựa trên các nền tảng học sâu mạnh mẽ như PyTorchTensorFlow .

Ứng dụng trong thế giới thực

Các phác thảo chi tiết về đối tượng được cung cấp bởi phân đoạn thể hiện có giá trị trong nhiều lĩnh vực.

  • Xe tự hành : Xe tự lái dựa vào phân đoạn dữ liệu để xác định chính xác hình dạng và vị trí của từng người đi bộ, phương tiện và người đi xe đạp. Chi tiết chi tiết này rất quan trọng cho việc điều hướng và lập kế hoạch đường đi an toàn, đặc biệt là trong môi trường đô thị phức tạp với nhiều đối tượng chồng chéo. Các tập dữ liệu như Cityscapes đã đóng vai trò quan trọng trong việc thúc đẩy lĩnh vực này.
  • Phân tích hình ảnh y tế : Trong X-quang, phân đoạn trường hợp được sử dụng để phân định khối u, tổn thương và cơ quan từ ảnh chụp CT hoặc MRI với độ chính xác cao. Điều này giúp bác sĩ đo kích thước khối u, lên kế hoạch phẫu thuật và theo dõi hiệu quả điều trị. Bạn có thể tìm hiểu thêm về điều này trong bài đăng trên blog của chúng tôi về việc sử dụng YOLO11 để phát hiện khối u .
  • Robot: Robot sử dụng phân đoạn trường hợp để hiểu môi trường xung quanh, xác định các vật thể cụ thể cần nắm bắt và tránh chướng ngại vật với độ chính xác cao hơn. Điều này rất quan trọng đối với các nhiệm vụ trong sản xuấthậu cần .
  • Phân tích hình ảnh vệ tinh : Kỹ thuật này được sử dụng để đếm từng cây trong rừng, lập bản đồ các tòa nhà trong thành phố hoặc theo dõi những thay đổi trong việc sử dụng đất theo thời gian bằng dữ liệu từ các tổ chức như NASA .
  • Nông nghiệp : Có thể sử dụng để xác định và đếm từng loại quả để ước tính năng suất hoặc phát hiện các loại cỏ dại cụ thể để phun thuốc diệt cỏ có mục tiêu, một phần quan trọng của nông nghiệp chính xác .

Phân đoạn trường hợp với Ultralytics YOLO

Ultralytics cung cấp các mô hình tiên tiến có khả năng thực hiện phân đoạn thực thể hiệu quả. Các mô hình như YOLOv8YOLO11 mới nhất được thiết kế để mang lại hiệu suất cao cho nhiều tác vụ thị giác khác nhau, bao gồm phân đoạn thực thể. Bạn có thể tìm hiểu thêm chi tiết trong tài liệu của chúng tôi về tác vụ phân đoạn . Người dùng có thể tận dụng các mô hình được đào tạo trước hoặc thực hiện tinh chỉnh trên các tập dữ liệu tùy chỉnh như COCO bằng các công cụ như nền tảng Ultralytics HUB , giúp đơn giản hóa quy trình làm việc máy học (ML) từ quản lý dữ liệu đến triển khai mô hình . Để triển khai thực tế, các tài nguyên như hướng dẫn của chúng tôi về phân đoạn với các mô hình Ultralytics YOLOv8 được đào tạo trước hoặc hướng dẫn của chúng tôi về cách cô lập các đối tượng phân đoạn đều có sẵn. Bạn cũng có thể tìm hiểu cách sử dụng Ultralytics YOLO11 để phân đoạn thực thể .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard