Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Настройки cookie
Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Узнайте, как работает самоконтролируемое обучение для удаления шумов, почему изображения становятся зашумленными, а также ознакомьтесь с основными методами и шагами, используемыми для восстановления чистых визуальных деталей.
Камеры не всегда запечатлевают мир таким, каким мы его видим. Портрет, снятый при слабом освещении, или фотография быстро движущегося автомобиля могут выглядеть зернистыми, размытыми или искаженными.
Медленные датчики, темная обстановка и движение могут вызывать появление мелких пятен шума, которые смягчают края и скрывают важные детали. Когда теряется четкость, даже передовые системы искусственного интеллекта и машинного обучения могут испытывать трудности с пониманием содержания изображения, поскольку многие интеллектуальные системы для эффективной работы полагаются на эти мелкие детали.
Например, компьютерное зрение — это отрасль искусственного интеллекта, которая позволяет машинам интерпретировать изображения и видео. Но для того, чтобы делать это точно, модели Vision AI нуждаются в чистых визуальных данных высокого качества, на которых они могут учиться.
В частности, такие модели, как Ultralytics YOLO11 и готовящаяся к выпуску Ultralytics поддерживают такие задачи, как обнаружение объектов, сегментация экземпляров и оценка позы, и могут быть настроены для различных случаев использования. Эти задачи опираются на четкие визуальные ориентиры, такие как края, текстуры, цвета и мелкие структурные детали.
Когда шум заглушает эти особенности, модель получает более слабые сигналы обучения, что затрудняет изучение точных моделей. В результате даже небольшое количество шума может снизить производительность в реальных приложениях.
Ранее мы рассмотрели, как самоконтролируемое обучение удаляет шумы из изображений. В этой статье мы более подробно рассмотрим, как работают методы самоконтролируемого удаления шумов и как они помогают восстановить значимую визуальную информацию. Приступим!
Распространенные типы шума в реальных изображениях
Прежде чем мы рассмотрим, как самоконтролируемое обучение используется для удаления шума из изображений, давайте сначала вернемся к вопросу, почему изображения становятся зашумленными.
Изображения реальных объектов и сцен редко бывают идеальными. Слабое освещение, ограниченное качество датчика и быстрое движение могут вызывать случайные помехи в отдельных пикселях по всему изображению. Эти нарушения на уровне пикселей, известные как шум, снижают общую четкость и затрудняют просмотр важных деталей.
Когда шум скрывает края, текстуры и тонкие узоры, системы компьютерного зрения затрудняются распознавать объекты или точно интерпретировать сцены. Различные условия создают разные типы шума, каждый из которых по-своему влияет на изображение.
Рис. 1. Пример того, как шум может привести к увеличению неопределенности в изображении. (Источник)
Вот некоторые из наиболее распространенных типов шума, встречающихся в изображениях:
Гауссовый шум: этот тип шума проявляется в виде мягкой случайной зернистости, вызванной помехами электронного датчика или тепловыми флуктуациями. Он подчиняется гауссовому (нормальному) распределению, при котором небольшие изменения пикселей размывают мелкие детали и снижают общую резкость.
Шум Пуассона: также называемый шумом снимания, этот тип шума возникает в условиях слабого освещения или при короткой выдержке. Его дисперсия увеличивается с ростом яркости, но шум часто более заметен в более темных областях, поскольку в них улавливается меньше фотонов, что приводит к снижению отношения сигнал/шум.
Соляно-перечный шум: этот тип шума проявляется в виде резких черных или белых пиков пикселей. Обычно он вызывается ошибками передачи, повреждением битов или неисправностью датчиков камеры и часто приводит к потере или повреждению значений пикселей.
Пятнистый шум: этот тип шума проявляется в виде зернистых, пятнистых узоров и часто встречается в медицинской, радиолокационной и ультразвуковой визуализации. Он вызван помехами и рассеиванием сигнала, что снижает контрастность и затрудняет detect краев.
Когда следует использовать самоконтролируемое шумоподавление?
Что же делает самоконтролируемое шумоподавление особенным? Оно особенно эффективно в ситуациях, когда чистые, достоверные изображения просто не существуют или их слишком сложно получить.
Это часто происходит при съемке в условиях низкой освещенности, при съемке с высоким ISO, в медицинской и научной визуализации или в любой среде, где шум неизбежен и сбор идеальных эталонных данных нереалистичен. Вместо того, чтобы нуждаться в чистых примерах, модель учится непосредственно на имеющихся у вас изображениях с шумом, что позволяет ей адаптироваться к конкретным моделям шума вашей камеры или датчика.
Самостоятельное шумоподавление также является отличным вариантом, когда вы хотите повысить производительность последующих задач компьютерного зрения, но ваш набор данных заполнен несогласованными или зашумленными изображениями. Восстанавливая более четкие края, текстуры и структуры, эти методы помогают таким моделям, как YOLO , более надежноdetect, segment и понимать сцены. Короче говоря, если вы работаете с зашумленными данными и у вас нет чистых обучающих изображений, самостоятельное шумоподавление часто предлагает наиболее практичное и эффективное решение.
Основные методы, лежащие в основе самоконтролируемого шумоподавления
Как мы уже видели ранее, самоконтролируемое шумоподавление — это подход искусственного интеллекта, основанный на глубоком обучении, который позволяет моделям учиться непосредственно на шумовых изображениях, не полагаясь на чистые метки. Он основан на принципах самоконтролируемого обучения, при котором модели генерируют свои собственные обучающие сигналы из самих данных.
Другими словами, модель может обучаться самостоятельно, используя шумовые изображения в качестве входных данных и источника сигнала обучения. Сравнивая различные поврежденные версии одного и того же изображения или предсказывая замаскированные пиксели, модель учится различать, какие паттерны представляют реальную структуру, а какие являются просто шумом. Посредством итеративной оптимизации и распознавания паттернов сеть постепенно улучшает свою способность отличать значимое содержание изображения от случайных вариаций.
Рис. 2. Исходное изображение и изображение с удаленным шумом. (Источник)
Это становится возможным благодаря специальным стратегиям обучения, которые помогают модели отделять стабильную структуру изображения от случайного шума. Далее давайте подробнее рассмотрим основные методы и алгоритмы, которые оптимизируют этот процесс, а также то, как каждый из подходов помогает моделям восстанавливать более чистые и надежные изображения.
Методы парного шумоподавления изображений
Многие ранние методы самоконтролируемого обучения для удаления шума работали путем сравнения двух зашумленных версий одного и того же изображения. Поскольку шум меняется случайным образом каждый раз, когда изображение снимается или повреждается, но реальная структура остается неизменной, эти различия могут быть использованы в качестве сигнала обучения для модели.
Эти подходы обычно называют методами парного шумоподавления изображений, поскольку они основаны на использовании или генерации пар шумовых изображений во время обучения. Например, подход Noise2Noise (предложенный Яакко Лехтиненом и его командой) обучает модель с использованием двух независимых шумовых изображений одной и той же сцены. Учитывая, что шумовые паттерны в двух версиях различаются, модель учится идентифицировать последовательные детали, которые представляют фактическое исходное изображение.
Со временем это учит сеть подавлять случайные шумы и сохранять реальную структуру, даже если она никогда не видит чистого эталонного изображения. Рассмотрим простой сценарий, в котором вы делаете две фотографии улицы при слабом освещении ночью.
Каждое изображение содержит одни и те же здания, источники света и тени, но зернистый шум появляется в разных местах. Сравнивая эти две фотографии с шумом во время обучения, самоконтролируемая модель может научиться различать, какие визуальные паттерны являются стабильными, а какие вызваны шумом, что в конечном итоге улучшает ее способность воссоздавать более чистые изображения.
Методы самообучения на основе слепых зон для удаления шумов
В то время как парные методы основываются на сравнении двух различно поврежденных версий одного и того же изображения, методы «слепого пятна» используют другой подход. Они позволяют модели обучаться на одном шумовом изображении, скрывая выбранные пиксели, чтобы сеть не могла видеть их поврежденные значения.
Затем модель должна предсказать скрытые пиксели, используя только окружающий контекст. Основная идея заключается в том, что шум является случайным, а вот основная структура изображения — нет.
Предотвращая копирование моделью шумового значения пикселя, методы «слепого пятна» побуждают ее делать выводы о том, каким должен быть этот пиксель, на основе стабильных образов, таких как близлежащие края, текстуры или цветовые градиенты. Такие методы, как Noise2Void (представленный Александром Круллом и его командой) и Noise2Self (разработанный Джошуа Бэтсоном и Лоиком Руайе), реализуют этот принцип путем маскирования отдельных пикселей или небольших участков и обучения модели их реконструкции.
Более совершенные подходы, включая Noise2Same и PN2V, повышают надежность за счет обеспечения согласованности прогнозов для нескольких замаскированных версий или явного моделирования распределения шума для оценки неопределенности. Поскольку эти методы требуют только одного изображения с шумом, они особенно полезны в областях, где получение чистых или парных изображений нецелесообразно или невозможно, таких как микроскопия, астрономия, биомедицинская визуализация или фотография при слабом освещении.
Методы шумоподавления с поддержкой трансформатора
Большинство методов парного и слепого самоконтролируемого шумоподавления опираются на сверточные нейронные сети (CNN) или сети шумоподавления. CNN являются отличным выбором для этих подходов, поскольку они фокусируются на локальных паттернах, а именно на краях, текстурах и мелких деталях.
Архитектуры, такие как U-Net, широко используются, поскольку они сочетают в себе мелкозернистые особенности с многомасштабной информацией. Однако CNN в основном работают в ограниченных соседствах, что означает, что они могут упускать важные взаимосвязи, охватывающие более крупные области изображения.
Для устранения этого ограничения были внедрены современные методы шумоподавления с поддержкой трансформатора. Вместо того, чтобы рассматривать только соседние пиксели, предлагаемый метод использует механизмы внимания, чтобы понять, как различные части изображения соотносятся друг с другом.
Некоторые модели используют полное глобальное внимание, в то время как другие используют оконное или иерархическое внимание для уменьшения вычислений, но в целом они предназначены для захвата долгосрочной структуры, которую CNN сами по себе не могут захватить. Это более широкое видение помогает модели восстанавливать повторяющиеся текстуры, гладкие поверхности или большие объекты, которые требуют информации со всего изображения.
Другие методы удаления шума из изображений
Помимо методов самоконтроля, существует еще несколько способов очистки изображений с шумом. Традиционные методы, такие как двусторонняя фильтрация, вейвлет-очистка от шума и нелокальные средства, используют простые математические правила для сглаживания шума, стараясь сохранить важные детали.
Между тем, существуют также подходы, основанные на глубоком обучении, в том числе модели с контролем, которые обучаются на парах чистых и зашумленных изображений, а также генеративные состязательные сети (GAN), которые генерируют более четкие и реалистичные результаты. Однако эти методы обычно требуют более высокого качества изображений для обучения.
Пошаговое руководство по работе системы самоконтролируемого шумоподавления изображений
Поскольку мы только что рассмотрели несколько различных методов, вы, возможно, задаетесь вопросом, действуют ли они по-разному, учитывая, что в них используются разные архитектуры. Однако все они следуют схожей схеме, которая начинается с подготовки данных и заканчивается оценкой модели.
Далее давайте подробнее рассмотрим, как шаг за шагом работает общий процесс самоконтролируемого шумоподавления изображений.
Шаг 1: Предварительная обработка и нормализация
Прежде чем модель сможет начать обучение на основе изображений с шумом, необходимо убедиться, что все изображения выглядят одинаково. Реальные фотографии могут сильно различаться.
Некоторые изображения могут быть слишком яркими, другие — слишком темными, а в некоторых цвета могут быть слегка искаженными. Если мы вводим эти вариации непосредственно в модель, ей становится сложнее сосредоточиться на изучении того, как выглядит шум.
Для решения этой проблемы каждое изображение проходит нормализацию и базовую предварительную обработку. Это может включать масштабирование значений пикселей до стандартного диапазона, корректировку колебаний интенсивности или кадрирование и изменение размера. Главное, чтобы модель получала чистые данные, которые можно использовать в качестве стабильных, сопоставимых входных данных.
Шаг 2: Создание сигнала для самоконтролируемого обучения
После нормализации изображений следующим шагом является создание обучающего сигнала, который позволяет модели обучаться, не видя чистых изображений. Методы самоконтролируемого шумоподавления делают это, гарантируя, что модель не может просто копировать полученные значения пикселей с шумом.
Вместо этого они создают ситуации, в которых модель должна полагаться на окружающий контекст изображения, который содержит стабильную структуру, а не на непредсказуемый шум. Различные методы достигают этого немного разными способами, но основная идея остается той же.
Некоторые подходы временно скрывают или маскируют определенные пиксели, чтобы модель могла вывести их из соседних пикселей, в то время как другие генерируют отдельно поврежденную версию того же изображения с шумом, чтобы входные данные и цель содержали независимый шум. В обоих случаях целевое изображение несет значимую структурную информацию, но не позволяет сети получить доступ к исходному значению пикселя с шумом, которое она должна предсказать.
Поскольку шум меняется случайным образом, а базовое изображение остается неизменным, такая настройка естественным образом побуждает модель изучать истинную структуру и игнорировать шум, который варьируется от одной версии к другой.
Шаг 3: Изучение методов шумоподавления для восстановления структуры изображения
После установки обучающего сигнала модель может начать учиться отделять значимую структуру изображения от шума посредством обучения модели. Каждый раз, когда она предсказывает замаскированный или повторно поврежденный пиксель, она должна полагаться на окружающий контекст, а не на шумовое значение, которое изначально занимало это место.
В результате многократных итераций или эпох сеть учится распознавать типы паттернов, которые остаются стабильными на всем изображении, такие как края, текстуры и гладкие поверхности. Она также учится игнорировать случайные колебания, характерные для шума.
Например, рассмотрим фотографию, снятую при слабом освещении, на которой поверхность выглядит чрезвычайно зернистой. Хотя шум варьируется от пикселя к пикселю, основная поверхность по-прежнему остается гладкой. Повторно вычисляя скрытые пиксели в таких областях, модель постепенно становится лучше в определении стабильного узора под шумом и воссоздает его более четко.
В процессе обучения модели сеть усваивает внутреннее представление структуры изображения. Это позволяет модели восстанавливать связные детали даже в случае сильного повреждения входных данных.
Шаг 4: Результаты проверки и шумоподавления
После того как модель научилась предсказывать скрытые или повторно поврежденные пиксели, последним шагом является оценка ее эффективности при работе с полными изображениями. Во время тестирования модель получает все изображение с шумом и создает полностью очищенную от шума версию на основе того, что она узнала о структуре изображения. Чтобы оценить эффективность этого процесса, результат сравнивается с чистыми эталонными изображениями или стандартными тестовыми наборами данных.
Двумя широко используемыми метриками являются PSNR (пиковое отношение сигнал/шум), которое измеряет степень приближенности реконструкции к чистой исходной информации, и SSIM (индекс структурного сходства), который оценивает степень сохранения важных характеристик, таких как края и текстуры. Более высокие показатели, как правило, указывают на более точное и визуально надежное удаление шума.
Наборы изображений, используемые для обучения и тестирования
Исследования в области самоконтролируемого шумоподавления, публикуемые в журналах IEEE и на конференциях CVF, CVPR, ICCV и ECCV, а также широко распространяемые на arXiv, часто опираются на сочетание синтетических и реальных наборов данных для оценки эффективности моделей методов глубокого обучения как в контролируемых, так и в практических условиях. С одной стороны, синтетические наборы данных создаются на основе чистых изображений с добавлением искусственного шума, что упрощает сравнение методов с помощью таких метрик, как PSNR и SSIM.
Вот несколько популярных наборов данных, которые обычно используются с добавлением синтетического шума для тестирования:
Kodak24: этот набор данных содержит высококачественные фотографии природных пейзажей, которые обычно используются для визуального сравнения результатов шумоподавления.
DIV2K: этот набор данных высокого разрешения содержит разнообразные подробные изображения, используемые для оценки точности текстур и общего качества реставрации.
С другой стороны, реальные наборы данных с шумом содержат изображения, снятые непосредственно с датчиков камеры при слабом освещении, высоком значении ISO или других сложных условиях. Эти наборы данных проверяют, может ли модель обрабатывать сложный негауссовый шум, который трудно смоделировать.
Вот несколько популярных реальных наборов данных с шумом:
SIDD: этот набор данных содержит пары реальных изображений с шумом и без шума, снятых с помощью датчиков смартфонов в различных условиях освещения.
DND: включает фотографии с высоким ISO, на которых запечатлены реалистичные шумы датчика, характерные для потребительских камер.
Факторы, которые следует учитывать при обучении самоконтролируемой модели шумоподавления
Вот несколько факторов и ограничений, которые следует учитывать, если вы собираетесь обучать модель самоконтролируемого шумоподавления на основе глубокого обучения:
Соответствие распределению шума: шумовые изображения, используемые для обучения, должны отражать тот же шум, с которым модель столкнется при реальном использовании; несоответствие шума приводит к плохой обобщаемости.
Обеспечьте разнообразие обучающих данных: ограниченное разнообразие может привести к переобучению или чрезмерному сглаживанию в сложных текстурах.
Учитывайте ограничения, связанные с типом шума: методы самоконтроля хуже справляются со структурированным, коррелированным или неслучайным шумом.
Тестирование на разных устройствах или датчиках: эффективность шумоподавления может значительно варьироваться в зависимости от камеры или системы визуализации.
Основные выводы
Самостоятельное шумоподавление дает энтузиастам искусственного интеллекта практичный способ очистки изображений, используя только имеющиеся у нас зашумленные данные. Научившись распознавать реальную структуру под шумом, эти методы могут восстанавливать важные визуальные детали. По мере совершенствования технологии шумоподавления она, вероятно, сделает широкий спектр задач компьютерного зрения более надежными в повседневных условиях.