Giải thích về Phân ngưỡng trong Xử lý Ảnh

Để hiểu rõ hơn về các khái niệm được đề cập trong bài viết này, hãy xem video bên dưới.

‍

Là con người, chúng ta thấy hình ảnh là những bức tranh mạch lạc, có ý nghĩa, trong khi máy tính xem chúng là lưới các pixel nhỏ, thành phần nhỏ nhất của một hình ảnh kỹ thuật số. Trong một quy trình được gọi là xử lý ảnh, các pixel này có thể được điều chỉnh hoặc phân tích để cải thiện hình ảnh và trích xuất thông tin hữu ích.

Một kỹ thuật xử lý ảnh phổ biến được gọi là phân ngưỡng ảnh (image thresholding). Phương pháp này chuyển đổi ảnh thang độ xám (trong đó mỗi pixel biểu thị một sắc thái xám) thành ảnh đen trắng bằng cách so sánh mỗi pixel với một giá trị đặt trước. Nó tạo ra sự phân tách rõ ràng giữa các vùng quan trọng và nền.

Phân ngưỡng thường được sử dụng trong phân vùng ảnh (image segmentation), một kỹ thuật chia một hình ảnh thành các vùng có ý nghĩa để giúp phân tích dễ dàng hơn. Nó thường là một trong những bước đầu tiên giúp máy móc diễn giải dữ liệu trực quan. Trong bài viết này, chúng ta sẽ xem xét phân ngưỡng là gì, nó hoạt động như thế nào và nó được áp dụng ở đâu trong các tình huống thực tế. Hãy bắt đầu!

Thuật ngữ cơ bản trong phân ngưỡng ảnh

Trước khi chúng ta đi sâu vào cách phân ngưỡng hoạt động, trước tiên hãy xem xét kỹ hơn các ý tưởng cơ bản đằng sau nó và cách nó được sử dụng trong xử lý ảnh.

Ngưỡng ảnh nhị phân

Giả sử bạn’đang làm việc với một hình ảnh và bạn muốn tách các đối tượng trong đó ra khỏi nền. Một cách để thực hiện việc này là bằng cách phân ngưỡng. Nó đơn giản hóa hình ảnh để mọi pixel hoàn toàn có màu đen hoặc hoàn toàn có màu trắng. Kết quả là một hình ảnh nhị phân, trong đó mỗi pixel có giá trị 0 (màu đen) hoặc 255 (màu trắng). Bước này thường hữu ích trong xử lý ảnh vì nó làm cho các phần quan trọng của hình ảnh nổi bật rõ ràng.

Hình 1. Ảnh xám và ảnh nhị phân sau khi áp dụng ngưỡng. (Nguồn: blog.devops.dev)

‍

Biểu đồ tần suất (Histogram)

Tương tự, nếu bạn muốn hiểu các giá trị độ sáng được phân phối như thế nào trên một hình ảnh, biểu đồ có thể giúp bạn. Đó là một biểu đồ cho thấy tần suất xuất hiện của mỗi cường độ pixel, từ đen (0) đến trắng (255).

Bằng cách xem xét biểu đồ, bạn có thể thấy hình ảnh tối, sáng hoặc ở mức độ nào đó giữa hai thái cực này. Điều này giúp bạn dễ dàng chọn giá trị ngưỡng tốt hơn khi chuyển hình ảnh thành đen trắng, vì bạn có thể phát hiện các mẫu và mức độ tương phản một cách nhanh chóng.

Tiền cảnh và hậu cảnh

Sau khi hình ảnh được phân ngưỡng, nó sẽ được chia thành hai phần: tiền cảnh và hậu cảnh. Tiền cảnh, thường được hiển thị bằng màu trắng, làm nổi bật các yếu tố quan trọng, chẳng hạn như văn bản, hình dạng hoặc đối tượng bạn muốn. detect Phần nền, được hiển thị màu đen, là tất cả những thứ còn lại. Sự phân tách này giúp máy móc tập trung vào những gì quan trọng trong hình ảnh.

Phân đoạn

Như đã đề cập trước đó, phân đoạn chia một hình ảnh thành các vùng có ý nghĩa dựa trên các đặc điểm như độ sáng hoặc họa tiết. Phân ngưỡng là một cách đơn giản để thực hiện điều này và thường là một trong những bước đầu tiên trong quy trình xử lý ảnh bằng máy tính.

Thị giác máy tính là một nhánh của AI cho phép máy móc xử lý và giải thích dữ liệu trực quan, giống như con người. Bằng cách sử dụng ngưỡng sớm trong quy trình, các hệ thống thị giác máy tính có thể tách các đối tượng khỏi nền của chúng, giúp cho các bước sau này, chẳng hạn như phát hiện hoặc nhận dạng, hoạt động chính xác hơn.

Ngưỡng toàn cục

Sau khi hiểu rõ hơn về thresholding, hãy cùng tìm hiểu cách threshold một ảnh và các loại thresholding khác nhau trong xử lý ảnh.

Ví dụ: ngưỡng toàn cục là một trong những cách dễ nhất để tạo hình ảnh nhị phân. Nó áp dụng một giá trị cường độ duy nhất trên toàn bộ hình ảnh. Các pixel sáng hơn ngưỡng này trở thành màu trắng, trong khi các pixel tối hơn chuyển sang màu đen. Điều này giúp tách đối tượng khỏi nền.

Nó hoạt động tốt nhất khi hình ảnh có ánh sáng đồng đều và độ tương phản mạnh. Nhưng trong điều kiện ánh sáng không đồng đều hoặc các vùng có độ tương phản thấp, một ngưỡng duy nhất có thể bỏ lỡ các chi tiết hoặc làm mờ các cạnh.

Để xử lý vấn đề này, các phương pháp như phân ngưỡng Otsu được sử dụng. Thay vì đặt giá trị theo cách thủ công, phương pháp phân ngưỡng Otsu sẽ phân tích biểu đồ của hình ảnh và chọn ngưỡng phân tách tốt nhất cường độ pixel thành tiền cảnh và hậu cảnh.

Hình 2. Hình ảnh Sao Thổ trước và sau khi áp dụng ngưỡng Otsu. (Nguồn)

‍

Ngưỡng cục bộ (thích ứng)

Không giống như ngưỡng toàn cục, ngưỡng thích ứng hoặc cục bộ tính toán giá trị ngưỡng riêng cho các phần khác nhau của hình ảnh. Điều này làm cho nó hiệu quả hơn đối với hình ảnh có ánh sáng không đồng đều, chẳng hạn như tài liệu được quét có bóng hoặc bề mặt có kết cấu.

Nó hoạt động bằng cách chia hình ảnh thành các vùng nhỏ và tính toán ngưỡng cục bộ cho mỗi khối, giúp duy trì độ tương phản giữa tiền cảnh và hậu cảnh. Phương pháp này được sử dụng rộng rãi trong các tác vụ như nhận dạng văn bản, chẩn đoán hình ảnh y tế và kiểm tra bề mặt, nơi ánh sáng thay đổi trên toàn bộ hình ảnh.

Một số phương pháp phổ biến để phân ngưỡng thích ứng trong xử lý ảnh bao gồm phân ngưỡng trung bình thích ứng và phân ngưỡng Gaussian thích ứng. Trong phân ngưỡng trung bình thích ứng, cường độ pixel trung bình trong một vùng lân cận cục bộ được sử dụng làm ngưỡng cho pixel trung tâm. Mặt khác, phân ngưỡng Gaussian thích ứng sử dụng trung bình có trọng số với cửa sổ Gaussian, chú trọng hơn đến các pixel gần tâm.

Ứng dụng thực tế của phân ngưỡng trong xử lý ảnh

Tiếp theo, hãy khám phá nơi ngưỡng hình ảnh được sử dụng trong các ứng dụng thực tế.

Phân ngưỡng ảnh để nhị phân hóa tài liệu và OCR

Sách cũ và thư viết tay thường được quét để bảo tồn hoặc chuyển đổi chúng thành văn bản kỹ thuật số bằng OCR (Nhận dạng ký tự quang học), một công nghệ đọc các ký tự in hoặc viết tay. Trước khi có thể trích xuất văn bản, tài liệu thường cần được làm sạch hoặc xử lý trước. Hình ảnh được quét thường có bóng, mực bị mờ hoặc ánh sáng không đồng đều, điều này có thể gây khó khăn cho việc nhận dạng ký tự.

Để cải thiện độ rõ nét, việc phân ngưỡng được sử dụng để chuyển đổi hình ảnh thang độ xám thành định dạng nhị phân, giúp cô lập văn bản khỏi nền. Các vùng tối hơn, như các chữ cái, trở thành màu đen, trong khi nền sáng hơn chuyển sang màu trắng - giúp các hệ thống OCR đọc văn bản dễ dàng hơn nhiều.

Hình 3. Một ví dụ về tài liệu lịch sử và ảnh đã được phân ngưỡng của nó. (Nguồn)

‍

Sử dụng ngưỡng trong xử lý ảnh y tế

Tương tự, trong hình ảnh y tế, phân ngưỡng thường được sử dụng để cô lập các cấu trúc cụ thể trong ảnh quét, chẳng hạn như xương hoặc phổi trong ảnh chụp X-quang. Bằng cách chuyển đổi hình ảnh thang độ xám thành định dạng nhị phân, sẽ dễ dàng hơn để tách các vùng quan tâm khỏi các mô xung quanh và chuẩn bị hình ảnh cho phân tích sâu hơn. Trong các trường hợp phức tạp hơn, phân ngưỡng đa cấp có thể được áp dụng để chia hình ảnh thành một số vùng riêng biệt, cho phép xác định các loại mô hoặc cấu trúc khác nhau cùng một lúc.

Hình 4. Sử dụng các phương pháp ngưỡng đa cấp trên ảnh chụp X-quang ngực. (Nguồn: sciencedirect.com)

‍

Ưu và nhược điểm của việc phân ngưỡng (thresholding) trong xử lý ảnh

Dưới đây là một số lợi ích chính của việc sử dụng ngưỡng (thresholding) trong xử lý ảnh:

Ít tốn tài nguyên: Phân ngưỡng hoạt động tốt trên các thiết bị có công suất thấp và không cần truy cập đám mây hoặc phần cứng cao cấp, khiến nó phù hợp với các hệ thống nhúng và thiết lập ngoại tuyến.
‍
Dễ diễn giải: Logic đơn giản của nó giúp cho việc thiết lập ngưỡng đầu ra trở nên dễ hiểu và gỡ lỗi, điều này rất quan trọng trong các lĩnh vực như chăm sóc sức khỏe hoặc xử lý tài liệu, nơi tính minh bạch được coi trọng.
‍
Kiểm thử nhanh: Phân ngưỡng (Thresholding) cho phép các nhóm nhanh chóng khám phá các ý tưởng phân đoạn trong các dự án giai đoạn đầu trước khi chuyển sang các mô hình phức tạp hơn.

Mặc dù việc phân ngưỡng ảnh rất hữu ích trong nhiều trường hợp, nhưng nó cũng đi kèm với một số hạn chế nhất định. Dưới đây là một số thách thức liên quan đến phân ngưỡng cần xem xét:

Thiếu khả năng thích ứng: Phân ngưỡng tuân theo các quy tắc cố định và nó không điều chỉnh theo các điều kiện ánh sáng mới hoặc các biến thể trong dữ liệu mà không cần điều chỉnh thủ công.
‍
Dễ bị ảnh hưởng bởi nhiễu: Những thay đổi nhỏ về độ sáng do bóng đổ hoặc phản xạ có thể làm sai lệch kết quả, đặc biệt khi làm việc với hình ảnh chi tiết hoặc có họa tiết.
‍
Tĩnh và dựa trên quy tắc: Không giống như các mô hình AI, thresholding không học hỏi từ dữ liệu hoặc cải thiện theo thời gian. Nó chỉ hoạt động trong các điều kiện hẹp mà nó được thiết kế.

Vượt xa ngưỡng phân đoạn ảnh: Khi thị giác máy tính là công cụ phù hợp

Phân ngưỡng hoạt động tốt cho các tác vụ phân vùng đơn giản trong các cài đặt được kiểm soát. Tuy nhiên, nó thường gặp khó khăn khi xử lý các hình ảnh phức tạp có nhiều đối tượng hoặc nhiễu nền. Vì nó dựa trên các quy tắc cố định, nên phân ngưỡng thiếu tính linh hoạt cần thiết cho hầu hết các ứng dụng thực tế.

Để vượt qua những giới hạn này, nhiều hệ thống tiên tiến hiện nay sử dụng thị giác máy tính. Trái ngược với ngưỡng, các mô hình AI thị giác được đào tạo để detect các mẫu và đặc điểm phức tạp, khiến chúng chính xác và dễ thích nghi hơn nhiều.

Ví dụ, các mô hình thị giác máy tính như Ultralytics YOLO11 có thể detect các đối tượng và segment hình ảnh theo thời gian thực. Điều này khiến chúng trở nên lý tưởng cho các nhiệm vụ như phát hiện tín hiệu giao thông trên xe tự hành hoặc xác định các vấn đề về cây trồng trong nông nghiệp.

Đặc biệt, YOLO11 Hỗ trợ một loạt các tác vụ thị giác máy tính , chẳng hạn như phân đoạn trường hợp, trong đó mỗi đối tượng trong ảnh được phân đoạn riêng biệt. Nó cũng có thể thực hiện các tác vụ thị giác khác, bao gồm ước tính tư thế (xác định vị trí hoặc tư thế của đối tượng) và theo dõi đối tượng (theo dõi đối tượng khi nó di chuyển qua các khung hình video).

Hình 5. YOLO11 giúp phát hiện và phân đoạn đối tượng dễ dàng. ( Nguồn )

Trong khi thresholding hoạt động tốt cho các tác vụ đơn giản hoặc thử nghiệm các ý tưởng ban đầu, các ứng dụng cần tốc độ, độ chính xác và tính linh hoạt thường được xử lý tốt hơn bằng computer vision.

Những điều cần nhớ

Phân ngưỡng là một công cụ quan trọng trong xử lý ảnh vì nó nhanh chóng và dễ sử dụng để tách các đối tượng khỏi nền. Nó hoạt động tốt với các tài liệu được quét, hình ảnh y tế và kiểm tra lỗi sản phẩm trong các nhà máy.

Tuy nhiên, khi hình ảnh và video trở nên phức tạp hơn, các phương pháp xử lý hình ảnh cơ bản như ngưỡng hình ảnh có thể gặp khó khăn. Đó là lúc các mô hình thị giác máy tính tiên tiến có thể phát huy tác dụng. Các mô hình như YOLO11 có thể hiểu và thực hiện nhiều nhiệm vụ hơn, phát hiện nhiều đối tượng cùng lúc và hoạt động theo thời gian thực, khiến chúng hữu ích cho nhiều trường hợp sử dụng.

Bạn muốn biết thêm về AI? Hãy xem cộng đồng và kho lưu trữ GitHub của chúng tôi. Khám phá các trang giải pháp của chúng tôi để tìm hiểu về AI trong ngành robot và thị giác máy tính trong nông nghiệp. Khám phá các tùy chọn cấp phép của chúng tôi và bắt đầu xây dựng với thị giác máy tính ngay hôm nay!

Phân ngưỡng (thresholding) trong xử lý ảnh là gì?