Самообучение для шумоподавления: пошаговый разбор
Узнай, как работает самообучение для шумоподавления, почему изображения становятся зашумленными, а также об основных методах и шагах, используемых для восстановления чистых визуальных деталей.

Камеры не всегда запечатлевают мир так, как видим его мы. Портрет, снятый при слабом освещении, или фотография быстро движущегося автомобиля могут выглядеть зернистыми, размытыми или искаженными.
Медленные сенсоры, темное окружение и движение могут приводить к появлению крошечных пятен шума, которые делают края мягче и скрывают важные детали. Когда эта четкость теряется, даже продвинутые системы ИИ и машинного обучения могут испытывать трудности с пониманием содержимого изображения, поскольку многие умные системы полагаются на эти мелкие детали для эффективной работы.
Например, компьютерное зрение — это отрасль искусственного интеллекта, которая позволяет машинам интерпретировать изображения и видео. Но чтобы делать это точно, моделям ИИ для компьютерного зрения нужны чистые, высококачественные визуальные данные для обучения.
В частности, такие модели, как Ultralytics YOLO11 и готовящаяся к выпуску Ultralytics YOLO26, поддерживают такие задачи, как обнаружение объектов, сегментация экземпляров и оценка позы, и могут быть обучены под конкретные случаи использования. Эти задачи опираются на четкие визуальные сигналы, такие как края, текстуры, цвета и мелкие структурные детали.
Когда шум скрывает эти признаки, модель получает более слабые обучающие сигналы, из-за чего ей сложнее изучать точные закономерности. В результате даже небольшое количество шума может снизить производительность в реальных приложениях.
Ранее мы рассматривали, как самообучающееся обучение убирает шум с изображений. В этой статье мы глубже погрузимся в то, как работают методы самообучающегося шумоподавления и как они помогают восстанавливать значимую визуальную информацию. Давай начнем!
Link to this sectionРаспространенные типы шума на реальных изображениях#
Прежде чем мы изучим, как самообучение используется для шумоподавления изображений, давай сначала вспомним, почему изображения вообще становятся зашумленными.
Изображения реальных объектов и сцен редко бывают идеальными. Низкое освещение, ограниченное качество сенсора и быстрое движение могут приводить к случайным искажениям отдельных пикселей по всему изображению. Эти нарушения на уровне пикселей, известные как шум, снижают общую четкость и затрудняют видимость важных деталей.
Когда шум скрывает края, текстуры и тонкие закономерности, системы компьютерного зрения с трудом распознают объекты или интерпретируют сцены точно. Разные условия создают разные типы шума, каждый из которых влияет на изображение по-своему.

Рис. 1. Пример того, как шум может вызвать повышенную неопределенность на изображении. (Источник)
Вот некоторые из наиболее распространенных типов шума, встречающихся на изображениях:
- Гауссов шум: Этот тип шума проявляется в виде мягкой случайной зернистости, вызванной помехами электронного сенсора или тепловыми флуктуациями. Он следует гауссову (нормальному) распределению, при котором небольшие вариации пикселей размывают мелкие детали и снижают общую резкость.
- Пуассонов шум: Также называемый дробовым шумом, этот тип шума возникает в условиях низкой освещенности или при короткой выдержке. Его дисперсия увеличивается с яркостью, но шум часто заметнее в более темных областях, поскольку захватывается меньше фотонов, что приводит к более низкому соотношению сигнал/шум.
- Импульсный шум (соль и перец): Этот тип шума проявляется в виде резких черных или белых точек пикселей. Обычно он вызван ошибками передачи, искажением битов или неисправными сенсорами камеры и часто приводит к отсутствующим или поврежденным значениям пикселей.
- Спекл-шум: Этот тип шума проявляется в виде зернистых, пятнистых узоров и часто встречается в медицинской, радарной и ультразвуковой визуализации. Он вызван интерференцией и рассеянием сигнала, что снижает контрастность и затрудняет обнаружение краев.
Link to this sectionКогда стоит использовать самообучающееся шумоподавление?#
Итак, что делает самообучающееся шумоподавление особенным? Оно отлично подходит для ситуаций, где чистые изображения (эталоны) просто не существуют или их слишком сложно получить.
Это часто случается при фотосъемке при слабом освещении, съемке с высоким ISO, медицинской и научной визуализации или в любой среде, где шум неизбежен, а сбор идеальных эталонных данных нереалистичен. Вместо того чтобы нуждаться в чистых примерах, модель учится напрямую на зашумленных изображениях, которые у тебя уже есть, что делает ее адаптируемой к специфическим паттернам шума твоей камеры или сенсора.
Самообучающееся шумоподавление также является отличным вариантом, если ты хочешь повысить производительность последующих задач компьютерного зрения, но твой набор данных заполнен несогласованными или зашумленными изображениями. Восстанавливая более четкие края, текстуры и структуры, эти методы помогают моделям, таким как YOLO, обнаруживать, сегментировать и понимать сцены более надежно. Короче говоря, если ты работаешь с зашумленными данными и у тебя нет чистых обучающих изображений, самообучающееся шумоподавление часто предлагает наиболее практичное и эффективное решение.
Link to this sectionОсновные методы, лежащие в основе самообучающегося шумоподавления#
Как мы уже видели, самообучающееся шумоподавление — это основанный на глубоком обучении подход ИИ, который позволяет моделям учиться напрямую на зашумленных изображениях, не полагаясь на чистые метки. Он опирается на принципы самообучающегося обучения, где модели создают свои собственные обучающие сигналы из самих данных.
Другими словами, модель может обучаться самостоятельно, используя зашумленные изображения как в качестве входных данных, так и в качестве источника обучающего сигнала. Сравнивая разные искаженные версии одного и того же изображения или предсказывая замаскированные пиксели, модель узнает, какие паттерны представляют реальную структуру, а какие — просто шум. Благодаря итеративной оптимизации и распознаванию паттернов сеть постепенно улучшает свою способность отличать значимое содержимое изображения от случайных вариаций.

Рис. 2. Исходное изображение и изображение с убранным шумом. (Источник)
Это стало возможным благодаря специфическим стратегиям обучения, которые направляют модель на отделение стабильной структуры изображения от случайного шума. Далее давай подробнее рассмотрим основные методы и алгоритмы, которые оптимизируют этот процесс, и то, как каждый подход помогает моделям восстанавливать более чистые и надежные изображения.
Link to this sectionМетоды парного шумоподавления изображений#
Многие ранние методы самообучения для шумоподавления работали путем сравнения двух зашумленных версий одного и того же изображения. Поскольку шум меняется случайным образом каждый раз, когда изображение захватывается или искажается, но реальная структура остается прежней, эти различия можно использовать в качестве обучающего сигнала для модели.
Эти подходы обычно называют методами парного шумоподавления, потому что они полагаются на использование или генерацию пар зашумленных изображений во время обучения. Например, подход Noise2Noise (предложенный Яакко Лехтиненом и его командой) обучает модель, используя два независимо зашумленных изображения одной и той же сцены. Учитывая, что паттерны шума различаются в двух версиях, модель учится идентифицировать последовательные детали, которые представляют фактическое лежащее в основе изображение.

Рис. 3. Как работает Noise2Noise (Источник)
Со временем это учит сеть подавлять случайный шум и сохранять реальную структуру, даже если она никогда не видит чистое эталонное изображение. Представь простую ситуацию, когда ты делаешь две фотографии улицы при слабом освещении ночью.
Каждое изображение содержит одни и те же здания, огни и тени, но зернистый шум появляется в разных местах. Сравнивая эти две зашумленные фотографии во время обучения, самообучающаяся модель может узнать, какие визуальные паттерны стабильны, а какие вызваны шумом, в конечном итоге улучшая свою способность восстанавливать более чистые изображения.
Link to this sectionМетоды самообучающегося шумоподавления на основе «слепых пятен»#
В то время как парные методы полагаются на сравнение двух по-разному искаженных версий одного и того же изображения, методы «слепых пятен» используют другой подход. Они позволяют модели учиться на одном зашумленном изображении, скрывая выбранные пиксели, чтобы сеть не могла видеть их искаженные значения.
Затем модель должна предсказать скрытые пиксели, используя только окружающий контекст. Основная идея заключается в том, что шум случаен, а лежащая в основе структура изображения — нет.
Предотвращая копирование моделью зашумленного значения пикселя, методы «слепых пятен» побуждают ее делать вывод о том, каким должен быть этот пиксель, основываясь на стабильных паттернах изображения, таких как близлежащие края, текстуры или градиенты цвета. Такие методы, как Noise2Void (представленный Александром Кроллом и его командой) и Noise2Self (разработанный Джошуа Бэтсоном и Лоиком Ройером), реализуют этот принцип путем маскирования отдельных пикселей или небольших областей и обучения модели их восстановлению.
Более продвинутые подходы, включая Noise2Same и PN2V, повышают надежность за счет обеспечения согласованных предсказаний по нескольким маскированным версиям или путем явного моделирования распределения шума для оценки неопределенности. Поскольку эти методы требуют только одно зашумленное изображение, они особенно полезны в областях, где получение чистых или парных изображений непрактично или невозможно, таких как микроскопия, астрономия, биомедицинская визуализация или фотосъемка при слабом освещении.
Link to this sectionМетоды шумоподавления с поддержкой трансформеров#
Большинство методов самообучающегося шумоподавления на основе пар или «слепых пятен» полагаются на сверточные нейронные сети (CNN) или сети шумоподавления. CNN — отличный вариант для этих подходов, потому что они фокусируются на локальных паттернах, а именно на краях, текстурах и мелких деталях.
Архитектуры, такие как U-Net, широко используются, поскольку они сочетают мелкозернистые признаки с многомасштабной информацией. Однако CNN в основном работают в ограниченных окрестностях, что означает, что они могут упустить важные связи, которые охватывают большие области изображения.
Современные методы шумоподавления с поддержкой трансформеров были представлены для решения этого ограничения. Вместо того чтобы смотреть только на соседние пиксели, предложенный метод использует механизмы внимания, чтобы понять, как разные части изображения связаны друг с другом.
Некоторые модели используют полное глобальное внимание, в то время как другие используют оконное или иерархическое внимание для уменьшения вычислений, но в целом они спроектированы так, чтобы захватывать долгосрочную структуру, которую CNN сами по себе не могут. Этот более широкий обзор помогает модели восстанавливать повторяющиеся текстуры, гладкие поверхности или крупные объекты, которые требуют информации со всего изображения.
Link to this sectionДругие методы шумоподавления изображений#
Помимо самообучающихся методов, существуют также несколько других способов очистки зашумленных изображений. Традиционные методы, такие как двусторонняя фильтрация, вейвлет-шумоподавление и нелокальные средства, используют простые математические правила для сглаживания шума, пытаясь при этом сохранить важные детали.
Между тем, существуют и подходы глубокого обучения, включая контролируемые модели, которые учатся на парах «чистое-зашумленное изображение», и генеративно-состязательные сети (GAN), которые генерируют более четкие, более реалистичные результаты. Однако эти методы обычно требуют лучшего качества изображения для обучения.
Link to this sectionПошаговый взгляд на то, как работает самообучающееся шумоподавление изображений#
Поскольку мы только что разобрали несколько разных методов, ты можешь задаться вопросом, работает ли каждый из них совершенно иначе, учитывая, что они используют свои собственные архитектуры. Однако все они следуют похожему конвейеру, который начинается с подготовки данных и заканчивается оценкой модели.
Далее давай подробнее рассмотрим, как в целом работает процесс самообучающегося шумоподавления изображений шаг за шагом.
Link to this sectionШаг 1: Предобработка и нормализация#
Прежде чем модель сможет начать учиться на зашумленных изображениях, первым шагом нужно убедиться, что все изображения выглядят согласованно. Реальные фотографии могут сильно отличаться.
Некоторые изображения могут быть слишком яркими, другие — слишком темными, а у некоторых цвета могут быть немного искажены. Если мы подадим эти вариации напрямую в модель, ей станет труднее сосредоточиться на изучении того, как выглядит шум.
Для обработки этого каждое изображение проходит через нормализацию и базовую предобработку. Это может включать масштабирование значений пикселей до стандартного диапазона, корректировку вариаций интенсивности или обрезку и изменение размера. Ключевой момент в том, что модель получает чистые данные, которые можно использовать в качестве стабильных, сравнимых входных данных.
Link to this sectionШаг 2: Создание самообучающегося обучающего сигнала#
Как только изображения были нормализованы, следующим шагом является создание обучающего сигнала, который позволяет модели учиться, никогда не видя чистого изображения. Методы самообучающегося шумоподавления делают это, гарантируя, что модель не сможет просто копировать получаемые ею значения зашумленных пикселей.
Вместо этого они создают ситуации, в которых модель должна полагаться на окружающий контекст изображения, содержащий стабильную структуру, а не на непредсказуемый шум. Разные методы достигают этого немного разными способами, но основная идея одна и та же.
Некоторые подходы временно скрывают или маскируют определенные пиксели, чтобы модель должна была вывести их значение из соседей, в то время как другие генерируют отдельно искаженную версию того же самого зашумленного изображения, так что входные и целевые данные содержат независимый шум. В обоих случаях целевое изображение несет значимую структурную информацию, но предотвращает доступ сети к исходному зашумленному значению пикселя, который она должна предсказать.
Поскольку шум меняется случайным образом, в то время как лежащее в основе изображение остается согласованным, эта настройка естественным образом побуждает модель узнавать, как выглядит истинная структура, и игнорировать шум, который варьируется от одной версии к другой.
Link to this sectionШаг 3: Обучение шумоподавлению для восстановления структуры изображения#
При наличии обучающего сигнала модель может начать учиться отделять значимую структуру изображения от шума через обучение модели. Каждый раз, когда она предсказывает маскированный или повторно искаженный пиксель, она должна полагаться на окружающий контекст вместо зашумленного значения, которое изначально занимало это место.
За много итераций или эпох это учит сеть распознавать типы паттернов, которые остаются стабильными по всему изображению, такие как края, текстуры и гладкие поверхности. Она также учится игнорировать случайные флуктуации, которые характеризуют шум.
Например, представь фотографию при слабом освещении, где поверхность выглядит крайне зернистой. Хотя шум меняется от пикселя к пикселю, лежащая в основе поверхность все еще гладкая. Повторно выводя значения скрытых пикселей в таких областях, модель постепенно становится лучше в идентификации стабильного паттерна под шумом и его более чистом восстановлении.
Благодаря процессу обучения модели, сеть изучает внутреннее представление структуры изображения. Это позволяет модели восстанавливать связные детали, даже если входные данные сильно искажены.
Link to this sectionШаг 4: Валидация и результаты уменьшения шума#
После того как модель научилась предсказывать скрытые или повторно искаженные пиксели, последним шагом является оценка того, насколько хорошо она работает на полных изображениях. Во время тестирования модель получает целое зашумленное изображение и создает полное изображение с убранным шумом на основе того, что она узнала о структуре изображения. Чтобы измерить, насколько эффективен этот процесс, результат сравнивается с чистыми эталонными изображениями или стандартными наборами данных для бенчмаркинга.
Две часто используемые метрики — это PSNR (Пиковое соотношение сигнал/шум), которое измеряет, насколько близка реконструкция к чистому эталону, и SSIM (Индекс структурного сходства), который оценивает, насколько хорошо сохранены важные признаки, такие как края и текстуры. Более высокие баллы обычно указывают на более точное и визуально надежное шумоподавление.
Link to this sectionНаборы данных изображений, используемые для обучения и бенчмаркинга#
Исследования самообучающегося шумоподавления, появляющиеся в журналах IEEE и на конференциях CVF, среди прочих, CVPR, ICCV и ECCV, а также широко распространенные на arXiv, часто полагаются на сочетание синтетических и реальных наборов данных для оценки производительности методов глубокого обучения как в контролируемых, так и в практических условиях. С одной стороны, синтетические наборы данных начинаются с чистых изображений, в которые добавляется искусственный шум, что облегчает сравнение методов с использованием метрик, таких как PSNR и SSIM.
Вот некоторые популярные наборы данных, часто используемые с добавлением синтетического шума для бенчмаркинга:
- Kodak24: Этот набор данных предоставляет высококачественные фотографии природных сцен, обычно используемые для визуального сравнения результатов шумоподавления.
- DIV2K: Этот набор данных высокого разрешения содержит разнообразные, детальные изображения, используемые для оценки точности текстур и общего качества восстановления.
Реальные зашумленные наборы данных, с другой стороны, содержат изображения, захваченные напрямую с сенсоров камер при слабом освещении, высоком ISO или других сложных условиях. Эти наборы данных проверяют, может ли модель справиться со сложным, негауссовым шумом, который нельзя легко симулировать.
Вот некоторые популярные реальные зашумленные наборы данных:
- SIDD: Этот набор данных предоставляет пары реальных зашумленных и чистых изображений, захваченных сенсорами смартфонов в различных условиях освещения.
- DND: Он включает фотографии с высоким ISO, которые фиксируют реалистичные паттерны шума сенсора, встречающиеся в потребительских камерах.

Рис. 4. Пример из набора данных DND. (Источник)
Link to this sectionФакторы, которые следует учитывать при обучении модели самообучающегося шумоподавления#
Вот некоторые факторы и ограничения, которые следует учитывать, если ты собираешься обучать модель самообучающегося шумоподавления на основе глубокого обучения:
- Соответствие распределения шума: Зашумленные изображения, используемые для обучения, должны отражать тот же шум, с которым модель столкнется при реальном использовании; несоответствие шума ведет к плохой обобщаемости.
- Обеспечение разнообразия обучающих данных: Ограниченная вариативность может вызвать переобучение или чрезмерное сглаживание сложных текстур.
- Учитывай ограничения типа шума: Самообучающиеся методы хуже справляются со структурированным, коррелированным или неслучайным шумом.
- Тестируй на разных устройствах или сенсорах: Производительность шумоподавления может сильно варьироваться между камерами или системами визуализации.
Link to this sectionОсновные выводы#
Самообучающееся шумоподавление дает энтузиастам ИИ практический способ очистки изображений, используя только зашумленные данные, которые у нас уже есть. Учась распознавать реальную структуру под шумом, эти методы могут восстанавливать важные визуальные детали. По мере того как технология шумоподавления продолжает улучшаться, она, вероятно, сделает широкий спектр задач компьютерного зрения более надежными в повседневных условиях.
Стань частью нашего растущего сообщества! Погрузись в наш репозиторий GitHub, чтобы узнать больше об ИИ. Если ты хочешь создавать решения для компьютерного зрения, ознакомься с нашими вариантами лицензирования. Исследуй преимущества компьютерного зрения в розничной торговле и посмотри, как ИИ в производстве меняет ситуацию!






