Thuật ngữ

Phân đoạn ngữ nghĩa

Khám phá sức mạnh của phân đoạn ngữ nghĩa—phân loại từng pixel trong hình ảnh để hiểu chính xác cảnh. Khám phá các ứng dụng và công cụ ngay!

Phân đoạn ngữ nghĩa là một nhiệm vụ thị giác máy tính cơ bản, bao gồm việc gán một nhãn lớp cụ thể cho từng pixel trong ảnh. Không giống như các phương pháp khác có thể xác định đối tượng bằng hộp hoặc gán một nhãn duy nhất cho toàn bộ ảnh, phân đoạn ngữ nghĩa tạo ra một bản đồ dày đặc, hoàn hảo đến từng pixel về các danh mục ngữ nghĩa khác nhau hiện diện. Điều này mang lại sự hiểu biết phong phú và chi tiết về nội dung ảnh, phác thảo hình dạng và vị trí chính xác của từng danh mục, chẳng hạn như "đường", "bầu trời", "tòa nhà" hoặc "người". Đây là một kỹ thuật cốt lõi trong các cảnh mà việc hiểu bối cảnh và bố cục cũng quan trọng như việc xác định từng đối tượng.

Mô hình và Công cụ

Phân đoạn ngữ nghĩa thường sử dụng các mô hình học sâu , đặc biệt là các kiến trúc bắt nguồn từ Mạng nơ-ron tích chập (CNN) .

Ứng dụng trong thế giới thực

Sự hiểu biết chi tiết về bối cảnh được cung cấp bởi phân đoạn ngữ nghĩa là rất quan trọng trong nhiều lĩnh vực:

  • Xe tự hành: Để xe tự hành di chuyển an toàn, nó phải hiểu rõ môi trường xung quanh. Phân đoạn ngữ nghĩa được sử dụng để xác định các khu vực có thể di chuyển (đường), khu vực không thể di chuyển (vỉa hè, tòa nhà) và vị trí của người đi bộ, người đi xe đạp và các phương tiện khác với độ chính xác đến từng pixel. Điều này cho phép lập kế hoạch lộ trình và ra quyết định an toàn hơn. Bạn có thể tìm hiểu thêm về vai trò của AI trong xe tự hành .
  • Phân tích hình ảnh y tế: Trong y học, độ chính xác là tối quan trọng. Phân đoạn ngữ nghĩa giúp tự động phân định các cơ quan, khối u, tổn thương và các cấu trúc giải phẫu khác trong các lần quét như chụp MRI và CT. Điều này hỗ trợ các bác sĩ X quang trong việc chẩn đoán, lập kế hoạch điều trị và theo dõi tiến triển của bệnh. Tìm hiểu thêm về cách AI được ứng dụng trong chẩn đoán hình ảnh y tế .
  • Phân tích ảnh vệ tinh: Đối với các ứng dụng không gian địa lý, phân đoạn ngữ nghĩa được sử dụng để phân loại lớp phủ đất từ ảnh vệ tinh . Phương pháp này có thể được sử dụng cho quy hoạch đô thị (xác định tòa nhà, đường xá và không gian xanh), giám sát môi trường (theo dõi nạn phá rừng hoặc các nguồn nước) và nông nghiệp chính xác .
  • Robot: Robot sử dụng phân đoạn ngữ nghĩa để hiểu môi trường hoạt động, cho phép chúng phân biệt giữa sàn nhà, tường nhà, vật thể cần tương tác và chướng ngại vật cần tránh. Điều này rất quan trọng cho các nhiệm vụ điều hướng và thao tác trong các môi trường phức tạp như nhà kho hoặc nhà ở. Tìm hiểu thêm về việc tích hợp thị giác máy tính vào robot .

Sự khác biệt chính so với các nhiệm vụ khác

Điều quan trọng là phải phân biệt phân đoạn ngữ nghĩa với các nhiệm vụ thị giác máy tính liên quan:

  • Phân đoạn thực thể : Đây là nhiệm vụ có liên quan chặt chẽ nhất. Mặc dù cả hai đều thực hiện phân loại ở cấp độ pixel, phân đoạn thực thể tiến xa hơn một bước bằng cách phân biệt các thực thể riêng lẻ của cùng một lớp đối tượng. Ví dụ, trong một hình ảnh có ba chiếc xe, phân đoạn ngữ nghĩa sẽ gắn nhãn tất cả các pixel xe đơn giản là "xe". Ngược lại, phân đoạn thực thể sẽ xác định "xe 1", "xe 2" và "xe 3" là các đối tượng riêng biệt.
  • Phát hiện Đối tượng : Nhiệm vụ này xác định sự hiện diện và vị trí của các đối tượng trong ảnh bằng cách vẽ một khung giới hạn xung quanh mỗi đối tượng và gán nhãn lớp. Nhiệm vụ này không cung cấp thông tin về hình dạng của đối tượng hoặc các pixel nào thuộc về đối tượng đó.
  • Phân đoạn toàn cảnh : Nhiệm vụ này có thể được xem như sự hợp nhất của phân đoạn ngữ nghĩa và phân đoạn thể hiện. Nhiệm vụ này nhằm mục đích cung cấp một cái nhìn toàn diện về bối cảnh bằng cách gán nhãn lớp cho mỗi pixel (tương tự như phân đoạn ngữ nghĩa) đồng thời xác định duy nhất từng thể hiện đối tượng (tương tự như phân đoạn thể hiện).

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard