Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Hướng dẫn

Thresholding trong xử lý hình ảnh là gì?

Khám phá thresholding trong xử lý hình ảnh với hướng dẫn này. Tìm hiểu thresholding là gì, các kỹ thuật thresholding hình ảnh khác nhau, bao gồm cả Otsu's thresholding.

ABAbirami Vina
5 min read
Một hình ảnh grayscale được chuyển đổi thành đen trắng bằng cách sử dụng thresholding

Để có cái nhìn trực quan về các khái niệm được đề cập trong bài viết này, hãy xem video bên dưới.

Với con người, chúng ta nhìn nhận hình ảnh như những bức tranh mạch lạc và đầy ý nghĩa, trong khi máy tính lại nhìn chúng dưới dạng lưới gồm các pixel nhỏ bé, những thành phần cơ bản nhất của một hình ảnh kỹ thuật số. Trong một quy trình gọi là xử lý ảnh, các pixel này có thể được điều chỉnh hoặc phân tích để cải thiện chất lượng hình ảnh và trích xuất thông tin hữu ích.

Một kỹ thuật xử lý ảnh phổ biến được gọi là phân ngưỡng ảnh (image thresholding). Phương pháp này chuyển đổi các ảnh thang độ xám (grayscale) (nơi mỗi pixel đại diện cho một sắc độ xám) thành ảnh đen trắng bằng cách so sánh từng pixel với một giá trị đặt trước. Kỹ thuật này tạo ra sự phân tách rõ ràng giữa các vùng quan trọng và nền.

Phân ngưỡng thường được sử dụng trong phân đoạn hình ảnh, một kỹ thuật chia hình ảnh thành các vùng có ý nghĩa để phân tích dễ dàng hơn. Đây thường là một trong những bước đầu tiên giúp máy tính diễn giải dữ liệu thị giác. Trong bài viết này, chúng ta sẽ xem xét phân ngưỡng là gì, cách thức hoạt động và nơi nó được áp dụng trong các tình huống thực tế. Hãy cùng bắt đầu nào!

Link to this sectionThuật ngữ cơ bản trong phân ngưỡng ảnh#

Trước khi đi sâu vào cách thức hoạt động của phân ngưỡng, trước tiên hãy cùng tìm hiểu kỹ hơn về các ý tưởng cơ bản đằng sau nó và cách nó được sử dụng trong xử lý ảnh.

Link to this sectionNgưỡng ảnh nhị phân#

Giả sử bạn đang làm việc với một hình ảnh và muốn tách các đối tượng ra khỏi nền. Một cách để thực hiện điều này là sử dụng phân ngưỡng. Nó đơn giản hóa hình ảnh để mọi pixel chỉ có thể là đen hoàn toàn hoặc trắng hoàn toàn. Kết quả thu được là một ảnh nhị phân, nơi mỗi pixel có giá trị là 0 (đen) hoặc 255 (trắng). Bước này thường hữu ích trong xử lý ảnh vì nó làm cho các phần quan trọng của hình ảnh trở nên nổi bật rõ ràng.

Một hình ảnh thang độ xám và kết quả nhị phân sau khi phân ngưỡng

Hình 1. Một ảnh thang độ xám và kết quả nhị phân sau khi phân ngưỡng. (Nguồn: blog.devops.dev)

Link to this sectionBiểu đồ tần suất (Histogram)#

Tương tự, nếu bạn muốn hiểu cách phân bổ giá trị độ sáng trên một hình ảnh, biểu đồ tần suất (histogram) có thể hỗ trợ. Đây là một biểu đồ thể hiện tần suất xuất hiện của mỗi cường độ pixel, từ đen (0) đến trắng (255).

Bằng cách quan sát biểu đồ, bạn có thể biết liệu hình ảnh đó tối, sáng hay nằm ở mức trung bình. Điều này giúp việc chọn giá trị ngưỡng phù hợp khi chuyển đổi hình ảnh sang đen trắng trở nên dễ dàng hơn, vì bạn có thể nhận diện các mẫu và mức độ tương phản trong nháy mắt.

Link to this sectionTiền cảnh và hậu cảnh#

Sau khi một hình ảnh đã được phân ngưỡng, nó được chia thành hai phần: tiền cảnh (foreground) và hậu cảnh (background). Tiền cảnh, thường hiển thị bằng màu trắng, làm nổi bật các yếu tố quan trọng như văn bản, hình dạng hoặc các đối tượng mà bạn muốn phát hiện. Hậu cảnh, hiển thị bằng màu đen, là mọi thứ còn lại. Sự phân tách này giúp máy tính tập trung vào những gì quan trọng trong hình ảnh.

Link to this sectionPhân đoạn#

Như đã đề cập trước đó, phân đoạn (segmentation) chia một hình ảnh thành các vùng có ý nghĩa dựa trên các đặc điểm như độ sáng hoặc kết cấu. Phân ngưỡng là một cách đơn giản để thực hiện việc này và thường là một trong những bước đầu tiên trong quy trình thị giác máy tính.

Thị giác máy tính là một nhánh của AI cho phép máy móc xử lý và diễn giải dữ liệu thị giác giống như cách con người thực hiện. Bằng cách sử dụng phân ngưỡng sớm trong quy trình, các hệ thống thị giác máy tính có thể tách biệt các đối tượng khỏi nền, giúp các bước sau như phát hiện hoặc nhận dạng hoạt động chính xác hơn.

Link to this sectionPhân ngưỡng toàn cục (Global thresholding)#

Giờ đây khi chúng ta đã hiểu rõ hơn về phân ngưỡng là gì, hãy cùng tìm hiểu cách phân ngưỡng một hình ảnh và các loại phân ngưỡng khác nhau trong xử lý ảnh.

Ví dụ, phân ngưỡng toàn cục là một trong những cách dễ nhất để tạo ra ảnh nhị phân. Nó áp dụng một giá trị cường độ duy nhất trên toàn bộ hình ảnh. Các pixel sáng hơn ngưỡng này sẽ chuyển thành màu trắng, trong khi các pixel tối hơn sẽ chuyển thành màu đen. Điều này giúp tách biệt đối tượng khỏi nền.

Phương pháp này hoạt động tốt nhất khi hình ảnh có ánh sáng đồng đều và độ tương phản mạnh. Tuy nhiên, trong điều kiện ánh sáng không đồng đều hoặc các vùng có độ tương phản thấp, một ngưỡng duy nhất có thể bỏ sót các chi tiết hoặc làm mờ các cạnh.

Để xử lý vấn đề này, các phương pháp như phân ngưỡng Otsu (Otsu's thresholding) được sử dụng. Thay vì thiết lập giá trị theo cách thủ công, phương pháp Otsu phân tích biểu đồ của hình ảnh và chọn một ngưỡng giúp tách biệt tối ưu cường độ pixel giữa tiền cảnh và hậu cảnh.

Hình ảnh sao Thổ trước và sau khi áp dụng thuật toán phân ngưỡng Otsu

Hình 2. Hình ảnh sao Thổ trước và sau khi áp dụng phân ngưỡng Otsu. (Nguồn)

Link to this sectionPhân ngưỡng cục bộ (thích nghi)#

Khác với phân ngưỡng toàn cục, phân ngưỡng thích nghi (adaptive) hoặc cục bộ tính toán giá trị ngưỡng riêng biệt cho các phần khác nhau của hình ảnh. Điều này làm cho nó hiệu quả hơn đối với các hình ảnh có ánh sáng không đồng đều, chẳng hạn như tài liệu quét có bóng hoặc bề mặt có kết cấu.

Nó hoạt động bằng cách chia hình ảnh thành các vùng nhỏ và tính toán một ngưỡng cục bộ cho mỗi khối, giúp duy trì độ tương phản giữa tiền cảnh và hậu cảnh. Cách tiếp cận này được sử dụng rộng rãi trong các tác vụ như nhận dạng văn bản, xử lý ảnh y tế và kiểm tra bề mặt, nơi ánh sáng thay đổi trên khắp hình ảnh.

Một số phương pháp phân ngưỡng thích nghi phổ biến trong xử lý ảnh bao gồm phân ngưỡng trung bình thích nghi (adaptive mean thresholding) và phân ngưỡng Gaussian thích nghi (adaptive Gaussian thresholding). Trong phân ngưỡng trung bình thích nghi, cường độ pixel trung bình trong một khu vực lân cận được sử dụng làm ngưỡng cho pixel trung tâm. Mặt khác, phân ngưỡng Gaussian thích nghi sử dụng mức trung bình có trọng số với cửa sổ Gaussian, ưu tiên các pixel gần tâm hơn.

Link to this sectionCác ứng dụng thực tế của phân ngưỡng trong xử lý ảnh#

Tiếp theo, hãy cùng khám phá nơi phân ngưỡng hình ảnh được sử dụng trong các ứng dụng thực tế.

Link to this sectionPhân ngưỡng hình ảnh để nhị phân hóa tài liệu và OCR#

Sách cũ và các lá thư viết tay thường được quét để bảo tồn hoặc chuyển đổi thành văn bản kỹ thuật số bằng cách sử dụng OCR (Nhận dạng ký tự quang học), một công nghệ đọc các ký tự in hoặc viết tay. Trước khi văn bản có thể được trích xuất, tài liệu thường cần được làm sạch hoặc tiền xử lý. Hình ảnh quét thường có bóng, mực mờ hoặc ánh sáng không đồng đều, điều này có thể làm cho việc nhận dạng ký tự trở nên khó khăn.

Để cải thiện độ rõ nét, phân ngưỡng được sử dụng để chuyển đổi ảnh thang độ xám sang định dạng nhị phân, giúp cô lập văn bản khỏi nền. Các vùng tối hơn, như các chữ cái, trở nên đen, trong khi nền sáng hơn chuyển thành màu trắng - giúp các hệ thống OCR dễ dàng đọc văn bản hơn rất nhiều.

Một tài liệu lịch sử và hình ảnh đã được phân ngưỡng của nó

Hình 3. Ví dụ về một tài liệu lịch sử và hình ảnh đã được phân ngưỡng. (Nguồn)

Link to this sectionSử dụng phân ngưỡng trong xử lý ảnh y tế#

Tương tự, trong xử lý ảnh y tế, phân ngưỡng thường được sử dụng để cô lập các cấu trúc cụ thể trong ảnh quét, chẳng hạn như xương hoặc phổi trong ảnh X-quang. Bằng cách chuyển đổi ảnh thang độ xám sang định dạng nhị phân, việc tách các vùng quan tâm ra khỏi mô xung quanh và chuẩn bị hình ảnh để phân tích thêm trở nên dễ dàng hơn. Trong các trường hợp phức tạp hơn, phân ngưỡng đa cấp có thể được áp dụng để chia hình ảnh thành nhiều vùng riêng biệt, cho phép xác định các loại mô hoặc cấu trúc khác nhau cùng một lúc.

Sử dụng các phương pháp phân ngưỡng đa mức trên ảnh chụp X-quang ngực

Hình 4. Sử dụng các phương pháp phân ngưỡng đa cấp trên ảnh X-quang ngực. (Nguồn: sciencedirect.com)

Link to this sectionƯu điểm và nhược điểm của phân ngưỡng trong xử lý ảnh#

Dưới đây là một số lợi ích chính khi sử dụng phân ngưỡng trong xử lý ảnh:

  • Tiết kiệm tài nguyên: Phân ngưỡng hoạt động hiệu quả trên các thiết bị năng lượng thấp và không cần truy cập đám mây hoặc phần cứng cao cấp, làm cho nó phù hợp với các hệ thống nhúng và thiết lập ngoại tuyến.
  • Dễ diễn giải: Logic đơn giản giúp các kết quả đầu ra của phân ngưỡng dễ hiểu và dễ gỡ lỗi, điều này cực kỳ quan trọng trong các lĩnh vực như y tế hoặc xử lý tài liệu nơi tính minh bạch là yếu tố thiết yếu.
  • Kiểm thử nhanh: Phân ngưỡng cho phép các nhóm nhanh chóng khám phá các ý tưởng phân đoạn trong các dự án giai đoạn đầu trước khi chuyển sang các mô hình phức tạp hơn.

Mặc dù phân ngưỡng hình ảnh hữu ích trong nhiều tình huống, nó cũng đi kèm với một số hạn chế nhất định. Dưới đây là một số thách thức liên quan đến phân ngưỡng cần xem xét:

  • Thiếu tính thích nghi: Phân ngưỡng tuân theo các quy tắc cố định và không tự điều chỉnh theo điều kiện ánh sáng mới hoặc các thay đổi trong dữ liệu nếu không có sự điều chỉnh thủ công.
  • Nhạy cảm với nhiễu: Những thay đổi nhỏ về độ sáng do bóng đổ hoặc phản xạ có thể làm sai lệch kết quả, đặc biệt là khi làm việc với hình ảnh chi tiết hoặc có kết cấu phức tạp.
  • Tĩnh và dựa trên quy tắc: Không giống như các mô hình AI, phân ngưỡng không học hỏi từ dữ liệu hoặc cải thiện theo thời gian. Nó chỉ hoạt động trong các điều kiện hẹp mà nó được thiết kế để xử lý.

Link to this sectionVượt ra ngoài phân ngưỡng ảnh: Khi nào thị giác máy tính là công cụ phù hợp#

Phân ngưỡng hoạt động tốt cho các tác vụ phân đoạn đơn giản trong môi trường được kiểm soát. Tuy nhiên, nó thường gặp khó khăn khi xử lý các hình ảnh phức tạp có nhiều đối tượng hoặc nhiễu nền. Vì dựa vào các quy tắc cố định, phân ngưỡng thiếu sự linh hoạt cần thiết cho hầu hết các ứng dụng thực tế.

Để vượt qua những giới hạn này, nhiều hệ thống tiên tiến hiện nay sử dụng thị giác máy tính. Trái ngược với phân ngưỡng, các mô hình vision AI được huấn luyện để phát hiện các mẫu và đặc điểm phức tạp, giúp chúng chính xác và linh hoạt hơn nhiều.

Ví dụ, các mô hình thị giác máy tính như Ultralytics YOLO11 có thể phát hiện đối tượng và phân đoạn hình ảnh trong thời gian thực. Điều này khiến chúng trở nên lý tưởng cho các tác vụ như phát hiện tín hiệu giao thông trong xe tự lái hoặc xác định các vấn đề cây trồng trong nông nghiệp.

Cụ thể, YOLO11 hỗ trợ hàng loạt tác vụ thị giác máy tính, chẳng hạn như phân đoạn thực thể (instance segmentation), nơi mỗi đối tượng trong hình ảnh được phân đoạn riêng biệt. Nó cũng có thể thực hiện các tác vụ dựa trên thị giác khác, bao gồm ước tính tư thế (xác định vị trí hoặc tư thế của đối tượng) và theo dõi đối tượng (bám theo một đối tượng khi nó di chuyển qua các khung hình video).

YOLO11 đang phát hiện và phân đoạn các đối tượng trong hình ảnh

Hình 5. YOLO11 giúp việc phát hiện và phân đoạn đối tượng trở nên dễ dàng. (Nguồn)

Trong khi phân ngưỡng hoạt động tốt cho các tác vụ đơn giản hoặc thử nghiệm các ý tưởng ban đầu, các ứng dụng cần tốc độ, độ chính xác và tính linh hoạt thường được xử lý tốt hơn bằng thị giác máy tính.

Link to this sectionCác điểm chính cần lưu ý#

Phân ngưỡng là một công cụ thiết yếu trong xử lý ảnh vì nó nhanh và dễ sử dụng để tách các đối tượng ra khỏi nền. Nó hoạt động tốt với các tài liệu quét, ảnh y tế và kiểm tra lỗi sản phẩm tại nhà máy.

Tuy nhiên, khi hình ảnh và video ngày càng phức tạp, các phương pháp xử lý ảnh cơ bản như phân ngưỡng ảnh có thể gặp khó khăn. Đó là lúc các mô hình thị giác máy tính tiên tiến có thể can thiệp. Các mô hình như YOLO11 có thể hiểu và thực hiện nhiều tác vụ hơn, phát hiện nhiều đối tượng cùng một lúc và hoạt động trong thời gian thực, khiến chúng trở nên hữu ích cho nhiều trường hợp sử dụng.

Bạn muốn biết thêm về AI? Hãy xem cộng đồngkho lưu trữ GitHub của chúng tôi. Khám phá các trang giải pháp của chúng tôi để tìm hiểu về AI trong robotthị giác máy tính trong nông nghiệp. Khám phá các tùy chọn cấp phép của chúng tôi và bắt đầu xây dựng với thị giác máy tính ngay hôm nay!

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning