Объяснение пороговой обработки в обработке изображений

Как люди, мы видим изображения как связные, значимые картины, в то время как компьютеры рассматривают их как сетки крошечных пикселей, мельчайших компонентов цифрового изображения. В процессе, называемом обработкой изображений, эти пиксели можно настраивать или анализировать для улучшения изображения и извлечения полезной информации.

Распространенный метод обработки изображений называется пороговой обработкой изображений. Этот метод преобразует изображения в оттенках серого (где каждый пиксель представляет оттенок серого) в черно-белые, сравнивая каждый пиксель с заданным значением. Он создает четкое разделение между важными областями и фоном.

Пороговая обработка часто используется в сегментации изображений — методе, который разделяет изображение на значимые области, чтобы упростить его анализ. Как правило, это один из первых шагов, помогающих машинам интерпретировать визуальные данные. В этой статье мы рассмотрим, что такое пороговая обработка, как она работает и где она применяется в реальных сценариях. Давайте начнем!

Базовая терминология в пороговой обработке изображений

Прежде чем мы углубимся в то, как работает пороговая обработка, давайте сначала внимательнее рассмотрим основные идеи, лежащие в ее основе, и то, как она используется при обработке изображений.

Пороговая обработка бинарного изображения

Предположим, вы работаете с изображением и хотите отделить объекты на нем от фона. Один из способов сделать это — пороговая обработка. Она упрощает изображение так, что каждый пиксель становится либо полностью черным, либо полностью белым. Результатом является двоичное изображение, где каждый пиксель имеет значение 0 (черный) или 255 (белый). Этот шаг часто полезен при обработке изображений, поскольку он позволяет четко выделить важные части изображения.

Рис. 1. Полутоновое изображение и его двоичный вывод после пороговой обработки. (Источник)

‍

Гистограмма

Аналогично, если вы хотите понять, как значения яркости распределены по изображению, может помочь гистограмма. Это график, который показывает, как часто появляется каждая интенсивность пикселя, от черного (0) до белого (255).

Глядя на гистограмму, вы можете увидеть, темное ли изображение, светлое или что-то среднее между ними. Это облегчает выбор хорошего порогового значения при преобразовании изображения в черно-белое, поскольку вы можете сразу увидеть закономерности и уровни контрастности.

Передний план и фон

После пороговой обработки изображение делится на две части: передний план и фон. Передний план, обычно показанный белым цветом, выделяет важные элементы, такие как текст, фигуры или объекты, которые вы хотите detect. Фон, показанный черным цветом, - это все остальное. Такое разделение помогает машинам сосредоточиться на главном в изображении.

Сегментация

Как упоминалось ранее, сегментация разделяет изображение на значимые области на основе таких признаков, как яркость или текстура. Пороговая обработка — это простой способ сделать это, и часто это один из первых шагов в конвейере компьютерного зрения.

Компьютерное зрение — это раздел искусственного интеллекта, который позволяет машинам обрабатывать и интерпретировать визуальные данные, подобно тому, как это делают люди. Используя пороговую обработку на ранних этапах, системы компьютерного зрения могут отделять объекты от фона, что облегчает последующие шаги, такие как обнаружение или распознавание, для точной работы.

Глобальная пороговая обработка

Теперь, когда у нас есть лучшее понимание того, что такое пороговая обработка, давайте рассмотрим, как выполнить пороговую обработку изображения и различные типы пороговой обработки в обработке изображений.

Например, глобальная пороговая обработка — один из самых простых способов создания бинарного изображения. Она применяет одно значение интенсивности ко всему изображению. Пиксели, которые ярче этого порога, становятся белыми, а более темные — черными. Это помогает отделить объект от фона.

Он лучше всего работает, когда изображение имеет равномерное освещение и сильный контраст. Но при неравномерном освещении или в областях с низкой контрастностью один порог может пропустить детали или размыть края.

Для решения этой проблемы используются такие методы, как пороговая обработка по методу Отсу. Вместо того чтобы устанавливать значение вручную, метод Отсу для пороговой обработки анализирует гистограмму изображения и выбирает порог, который наилучшим образом разделяет интенсивности пикселей на передний план и фон.

Рис. 2. Изображение Сатурна до и после применения пороговой обработки по методу Отсу. (Источник)

‍

Локальная (адаптивная) пороговая обработка

В отличие от глобальной пороговой обработки, адаптивная или локальная пороговая обработка вычисляет пороговое значение отдельно для разных частей изображения. Это делает ее более эффективной для изображений с неравномерным освещением, таких как отсканированные документы с тенями или текстурированные поверхности.

Он работает, разделяя изображение на небольшие области и вычисляя локальный порог для каждого блока, что помогает поддерживать контраст между передним планом и фоном. Этот подход широко используется в таких задачах, как распознавание текста, медицинская визуализация и проверка поверхности, где освещение меняется по всему изображению.

Некоторые распространенные подходы к адаптивной пороговой обработке в обработке изображений включают адаптивную пороговую обработку по среднему значению и адаптивную гауссовскую пороговую обработку. При адаптивной пороговой обработке по среднему значению средняя интенсивность пикселей в локальной окрестности используется в качестве порога для центрального пикселя. Адаптивная гауссовская пороговая обработка, с другой стороны, использует взвешенное среднее значение с гауссовским окном, придавая большее значение пикселям, расположенным ближе к центру.

Примеры использования пороговой обработки в обработке изображений в реальных условиях

Далее, давайте рассмотрим, где пороговая обработка изображений используется в реальных приложениях.

Пороговая обработка изображений для бинаризации документов и OCR

Старые книги и рукописные письма часто сканируются для сохранения или преобразования в цифровой текст с помощью OCR (Optical Character Recognition) — технологии, которая распознает печатные или рукописные символы. Прежде чем текст можно будет извлечь, документ обычно необходимо очистить или предварительно обработать. Отсканированные изображения часто имеют тени, выцветшие чернила или неравномерное освещение, что может затруднить распознавание символов.

Для повышения четкости используется пороговая обработка для преобразования изображений в оттенках серого в двоичный формат, что помогает отделить текст от фона. Более темные области, такие как буквы, становятся черными, а более светлый фон становится белым, что значительно облегчает чтение текста системам OCR.

Рис. 3. Пример исторического документа и его изображения после пороговой обработки. (Источник)

‍

Использование пороговой обработки в медицинской обработке изображений

Аналогично, в медицинской визуализации пороговая обработка обычно используется для выделения определенных структур на снимках, таких как кости или легкие на рентгеновских снимках. Преобразуя изображения в оттенках серого в двоичный формат, становится легче отделить интересующие области от окружающей ткани и подготовить изображение для дальнейшего анализа. В более сложных случаях можно применить многоуровневую пороговую обработку, чтобы разделить изображение на несколько различных областей, что позволит одновременно идентифицировать различные типы тканей или структур.

Рис. 4. Использование многоуровневых методов пороговой обработки на рентгеновских снимках грудной клетки. (Источник)

‍

Плюсы и минусы пороговой обработки в обработке изображений

Вот некоторые из ключевых преимуществ использования пороговой обработки в обработке изображений:

Не требовательность к ресурсам: Пороговая обработка хорошо работает на маломощных устройствах и не требует доступа к облаку или высокопроизводительному оборудованию, что делает ее подходящей для встроенных систем и автономных установок.
‍
Легко интерпретировать: Ее простая логика позволяет легко понимать и отлаживать пороговые значения, что имеет решающее значение в таких областях, как здравоохранение или обработка документов, где важна прозрачность.
‍
Быстрое тестирование: Пороговая обработка позволяет командам быстро изучать идеи сегментации на ранних стадиях проектов, прежде чем переходить к более сложным моделям.

Хотя пороговая обработка изображений полезна во многих сценариях, она также имеет определенные ограничения. Вот некоторые проблемы, связанные с пороговой обработкой, которые следует учитывать:

Недостаточная адаптивность: Пороговая обработка следует фиксированным правилам и не адаптируется к новым условиям освещения или изменениям в данных без ручной настройки.
‍
Чувствительность к шуму: Небольшие изменения яркости от теней или отражений могут исказить результаты, особенно при работе с детализированными или текстурированными изображениями.
‍
Статический и основанный на правилах: В отличие от моделей ИИ, пороговая обработка не учится на данных и не улучшается со временем. Она работает только в узких условиях, для которых была разработана.

Помимо пороговой обработки изображений: когда компьютерное зрение является подходящим инструментом

Пороговая обработка хорошо подходит для простых задач сегментации в контролируемых условиях. Однако она часто испытывает трудности при работе со сложными изображениями, содержащими несколько объектов или фоновый шум. Поскольку она основана на фиксированных правилах, пороговой обработке не хватает гибкости, необходимой для большинства реальных приложений.

Чтобы выйти за эти рамки, многие передовые системы сегодня используют компьютерное зрение. В отличие от пороговой обработки, модели искусственного зрения обучаются detect сложные паттерны и особенности, что делает их гораздо более точными и адаптируемыми.

Например, модели компьютерного зрения, такие как Ultralytics YOLO11 позволяют detect объекты и segment изображения в режиме реального времени. Это делает их идеальными для таких задач, как обнаружение сигналов светофора в автономных автомобилях или выявление проблем с урожаем в сельском хозяйстве.

В частности, YOLO11 поддерживает ряд задач компьютерного зрения, таких как сегментация объектов, когда каждый объект на изображении сегментируется отдельно. Он также может выполнять другие задачи, основанные на компьютерном зрении, включая оценку позы (определение положения или позы объекта) и отслеживание объекта (слежение за объектом при его перемещении по видеокадрам).

Рис. 5. YOLO11 позволяет легко обнаруживать и сегментировать объекты.(Источник)

Хотя пороговая обработка хорошо подходит для простых задач или тестирования ранних идей, приложения, которым нужна скорость, точность и гибкость, обычно лучше обрабатываются с помощью компьютерного зрения.

Основные выводы

Пороговая обработка — важный инструмент в обработке изображений, поскольку она быстра и проста в использовании для отделения объектов от фона. Она хорошо работает со сканированными документами, медицинскими изображениями и проверкой дефектов продукции на заводах.

Однако по мере усложнения изображений и видео базовые методы обработки изображений, такие как пороговая обработка, могут оказаться неэффективными. Именно здесь на помощь приходят продвинутые модели компьютерного зрения. Такие модели, как YOLO11 , могут понимать и выполнять больше задач, замечать множество объектов одновременно и работать в режиме реального времени, что делает их полезными для многих случаев использования.

Хотите узнать больше об ИИ? Посетите наше сообщество и репозиторий GitHub. Изучите страницы с нашими решениями, чтобы узнать об ИИ в робототехнике и компьютерном зрении в сельском хозяйстве. Откройте для себя наши варианты лицензирования и начните создавать решения с использованием компьютерного зрения уже сегодня!

Что такое пороговая обработка в обработке изображений?

Базовая терминология в пороговой обработке изображений