使用自监督学习进行图像去噪
了解自监督学习如何对图像进行去噪、消除噪声,并通过 AI 技术增强摄影、医疗和视觉系统的清晰度。

图像是我们日常生活的一部分,从我们拍摄的照片到公共场所摄像头记录的视频,无所不在。它们包含有洞察力的信息,而尖端技术使得分析和解读这些数据成为可能。
特别是计算机视觉,作为人工智能 (AI) 的一个分支,使机器能够像人类一样处理视觉信息并理解所见内容。然而,在实际应用中,图像往往远非完美。
由雨水、灰尘、低光照或传感器限制引起的图像噪声会掩盖重要细节,使视觉 AI 模型更难准确检测物体或解读场景。图像去噪有助于减少这种噪声,使视觉 AI 模型能够更清晰地查看细节并做出更准确的预测。

图 1. 图像去噪示例。(来源)
传统上,图像去噪依赖于监督学习,即模型使用成对的噪声图像和干净图像进行训练,以学习如何去除噪声。然而,收集完美的干净参考图像并不总是切实可行。
为了应对这一挑战,研究人员开发了自监督图像去噪器。它们旨在训练 AI 模型直接从数据中学习,创造自己的学习信号来去除噪声并保留重要细节,而无需干净的参考图像。
在本文中,我们将深入了解自监督图像去噪器、它们的工作原理、背后的关键技术以及它们的实际应用。让我们开始吧!
Link to this section什么是自监督图像去噪?#
噪声图像可能使视觉 AI 模型难以解读图片内容。例如,在低光照条件下拍摄的照片可能看起来有颗粒感或模糊,从而掩盖了帮助模型准确识别物体的微妙特征。
在基于监督学习的去噪中,模型使用成对的图像(一张有噪声,一张干净)进行训练,以学习如何去除不必要的噪声。虽然这种方法很有效,但在现实场景中,收集完美的干净参考数据通常既费时又困难。
这就是为什么研究人员转向自监督图像去噪的原因。自监督图像去噪建立在自监督学习的概念之上,即模型通过从数据中创建自己的学习信号来进行自我教学。
由于该方法不依赖于大型标记数据集,自监督去噪在低光摄影、医学成像和卫星图像分析等领域更快、更具可扩展性且更易于应用,因为在这些领域中,干净的参考图像通常无法获取。
这种方法不是依赖干净的参考图像,而是通过预测掩码像素或重建缺失部分直接在噪声数据上进行训练。通过这个过程,模型学会了区分有意义的图像细节和随机噪声,从而产生更清晰、更准确的输出。
虽然它看起来可能与无监督学习相似,但自监督学习实际上是它的一种特殊情况。关键区别在于,在自监督学习中,模型从数据中创建自己的标签或训练信号来学习特定任务。相比之下,无监督学习专注于在没有任何明确任务或预定义目标的情况下发现数据中的隐藏模式或结构。
Link to this section自监督去噪中的学习策略#
关于自监督去噪,有几种学习方式。一些自监督去噪模型填充被掩盖或缺失的像素,而另一些则比较同一图像的多个噪声版本以寻找一致的细节。
例如,一种被称为盲点学习的流行方法专注于训练去噪器模型忽略它正在重建的像素,而是依靠周围的环境。随着时间的推移,模型在重建高质量图像的同时,保留了基本的纹理、边缘和颜色。
Link to this section自监督学习如何工作以去除噪声#
接下来,我们将探讨自监督学习如何去除噪声的过程。
自监督去噪的过程通常始于将噪声图像输入到去噪模型中。模型分析附近的像素以估计每个不清晰或被掩盖的像素应该是什么样子,逐渐学会区分噪声和真实的视觉细节。
想象一张昏暗、有颗粒感的天空照片。模型观察附近的星星和周围的图案,以预测每个噪声块在没有噪声的情况下应该是什么样子。通过在整个图像中重复此过程,它学会了将随机噪声与有意义的特征分开,从而产生更清晰、更准确的结果。
换句话说,模型根据上下文预测图像的更清晰版本,而无需任何完美的干净参考。这个过程可以使用不同类型的模型来实现,每种模型在处理噪声方面都有独特的优势。
Link to this section用于自监督图像降噪的模型类型#
以下是通常用于自监督图像去噪的模型类型概览:
- 卷积神经网络 (CNNs): CNN 是旨在识别图像中一小部分区域模式的深度学习模型。它们使用过滤器扫描图像以检测边缘、形状和纹理。在自监督去噪中,它们通常使用盲点技术,即目标像素被排除在输入之外,因此模型仅根据周围像素预测其值。这有助于模型避免复制噪声,而是推断出更清晰的细节。
- 自动编码器: 自动编码器是学习压缩和重建数据的神经网络。它们首先将图像缩减为较小的表示(编码),然后将其重建(解码)。在此过程中,它们学习捕捉诸如形状和纹理等重要的视觉特征,同时过滤掉随机噪声和无关细节。
- 基于 Transformer 的模型: Transformer 是最初为自然语言处理而开发但现在广泛用于视觉任务的模型。它们一次处理整个图像,学习不同区域之间的关系。这种全局视角使它们能够在复杂或高分辨率图像中保留精细的细节和结构一致性。

图 2. 用于自监督图像去噪的 CNN 架构一览。(来源)
使用在不同光照和 ISO 设置下拍摄的图像来训练这些模型,有助于它们在许多现实世界的情况下表现良好。在数码相机中,ISO 设置通过放大接收到的信号来控制相机使图像变亮的程度。
较高的 ISO 会使照片在黑暗地方更亮,但也会增加噪声并减少细节。通过学习在不同 ISO 水平下拍摄的图像,模型能更好地将真实细节与噪声区分开来,从而获得更清晰、更准确的结果。
Link to this section去噪器如何学习什么是噪声,什么是真实的?#
去噪器通过不同于去噪所用模型类型的训练技术,来学习区分噪声和真实图像细节。CNN、自动编码器和 Transformer 等模型类型描述了网络的结构及其处理视觉信息的方式。
另一方面,训练技术定义了模型的学习方式。一些方法使用基于上下文的预测,模型通过利用附近区域的信息来填充缺失或被掩盖的像素。
另一些使用基于重建的学习,模型将图像压缩成更简单的形式,然后将其重建,帮助它识别边缘和纹理等有意义的结构,同时过滤掉随机噪声。
模型类型和训练技术共同决定了去噪器清洁图像的有效性。通过将正确的架构与正确的学习方法相结合,自监督去噪器可以适应多种类型的噪声,即使没有干净的参考数据,也能产生更清晰、更准确的图像。
Link to this section自监督 AI 图像去噪的关键技术#
以下是一些最广泛使用的实现有效自监督图像去噪的训练技术:
- Noise2Noise: 该方法使用同一图像的两个噪声版本来训练模型。由于每个版本中的噪声是随机的,模型学会专注于代表真实图像的一致细节,并忽略噪声。当同一场景有多个噪声捕获时(例如在连拍照片或医学和科学成像中),它的效果最好。
- Noise2Void 或 Noise2Self: 这些技术通过隐藏(掩盖)一个像素并要求模型根据周围像素预测其值,从而在单张噪声图像上进行训练。这防止了模型简单地复制噪声数据,并帮助它学习图像的自然结构。当只有一张噪声图像可用时,例如在显微镜、天文学或低光摄影中,它们特别有用。
- 盲点网络: 它们是专门设计的,以便模型看不到它正在重建的像素。相反,它依靠周围区域的信息来估计该像素应该是什么样子。这使得噪声去除更准确、更无偏见,并且它们经常在像素级去噪任务中与 Noise2Void 或 Noise2Self 方法结合使用。
- 掩码自动编码器 (MAE): 在这种方法中,图像的一部分被隐藏,模型学习重建缺失的区域。通过这样做,它既学习了精细的细节,也学习了整体结构,帮助它区分真实内容和噪声。掩码自动编码器对于高分辨率或复杂图像特别有效,因为理解更广泛的上下文可以改善恢复效果。
Link to this section评估图像去噪系统#
图像去噪是在两个目标之间取得的谨慎平衡:减少噪声和保持精细细节。去噪过多可能使图像看起来柔和或模糊,而过少可能留下多余的颗粒或伪影。
为了了解模型在多大程度上实现了这种平衡,研究人员使用评估指标来衡量图像清晰度和细节保留情况。这些指标展示了模型在不丢失重要视觉信息的情况下清洁图像的效果。
以下是帮助衡量图像质量和去噪性能的常用评估指标:
- 均方误差 (MSE): 它衡量原始图像和去噪图像之间的平均平方差。它强调了输出在像素级别上与原始图像的接近程度。较低的 MSE 值意味着更少的错误和更准确的结果。
- 峰值信噪比 (PSNR): 该指标以分贝为单位比较原始图像信号与剩余噪声的强度。它用于查看去噪后保留了多少原始细节。较高的 PSNR 值意味着更清晰、更高质量的图像。
- 结构相似性指数衡量 (SSIM): SSIM 评估结构、亮度和对比度,以评估去噪图像与原始图像之间的相似性。它专注于人类如何看待图像,而不仅仅是原始数字。较高的 SSIM 分数意味着图像看起来更自然,更符合原始图像。
- 感知指标: 这些指标使用深度学习模型来判断图像看起来有多真实和自然。它们不比较单个像素,而是专注于整体外观、纹理和视觉相似性。在大多数情况下,较低的分数意味着图像看起来更接近原始图像,并且对人类更具视觉愉悦感。
Link to this section自监督去噪的应用#
既然我们对什么是去噪有了更好的了解,让我们探讨一下自监督图像去噪是如何在现实场景中应用的。
Link to this section在天文摄影中使用自监督去噪#
拍摄清晰的星星和星系照片并不容易。夜空是黑暗的,因此相机通常需要很长的曝光时间,这可能会引入多余的噪声。这种噪声会模糊精细的宇宙细节,使微弱的信号更难被检测到。
传统的去噪工具可以帮助减少噪声,但它们往往在去噪的同时去除了重要的细节。自监督去噪提供了一种更智能的替代方案。通过直接从噪声图像中学习,AI 模型可以识别代表真实特征的模式,并将其与随机噪声分开。
结果是星星、星系和太阳等天体的图像变得清晰得多,揭示了本来可能被忽视的微弱细节。它还可以增强细微的天文特征,提高图像清晰度,使数据对科学研究更有用。

图 3. 图像去噪可以增强天文摄影图像。(来源)
Link to this section医学成像的自监督去噪#
核磁共振、CT 和显微镜图像等医学扫描通常会产生噪声,这会使微小的细节更难看清。当医生需要发现疾病的早期迹象或跟踪随时间的变化时,这可能是一个问题。
图像噪声可能来自患者移动、信号强度低或辐射使用量的限制。为了使医学扫描更清晰,研究人员探索了 Noise2Self 等自监督去噪方法以及其他类似方案。
这些模型直接在噪声脑部核磁共振图像上进行训练,自行学习噪声模式并在不需要完美清晰示例的情况下进行清洁。处理后的图像显示出更锐利的纹理和更好的对比度,使精细结构更易于识别。这种人工智能驱动的去噪器简化了诊断成像的工作流程,提高了实时分析效率。

图 4. 在脑部核磁共振扫描上使用不同的自监督去噪技术。(来源)
Link to this section用自监督去噪增强视觉系统#
在大多数情况下,去噪对广泛的计算机视觉应用产生重大影响。通过去除不必要的噪声和失真,它为视觉 AI 模型处理提供了更清洁、更一致的输入数据。
更清晰的图像可以提高计算机视觉任务(如物体检测、实例分割和图像识别)的性能。以下是一些视觉 AI 模型(例如 Ultralytics YOLO11 和 Ultralytics YOLO26)可以从去噪中获益的应用示例:
- 工业检测:去噪推动了对制造环境中表面缺陷或异常的更准确检测,从而提高了质量控制。
- 自动驾驶和导航:它增强了在低光、雨或雾等挑战性条件下的物体和障碍物检测,提高了整体安全性和可靠性。
- 监控和安全: 去噪提高了低光或高压缩视频流中的图像质量,从而能够更好地识别和跟踪物体或人员。
- 水下成像: 去噪减少了散射和光线失真,增强了浑浊水下条件下的可见度和物体识别能力。
Link to this section自监督去噪的优缺点#
以下是在成像系统中使用自监督去噪的一些主要好处:
- 噪声适应性: 自监督去噪方法可以直接从噪声数据中学习,而不需要成对的干净参考。这使它们能够高度适应广泛的现实世界噪声水平和类型,例如传感器噪声、运动模糊或环境干扰。
- 细节保留: 设计良好的模型可以保留对准确图像解读至关重要的精细纹理和边缘。盲点网络和基于掩码的学习等方法有助于在减少噪声的同时保持结构信息。
- 更少的预处理: 通过仅使用可用数据学习将噪声输入映射到干净的表示,模型最大限度地减少了对手动过滤、手工去噪算法或策划的训练数据集的需求。
尽管有其优点,自监督去噪也存在一定的局限性。以下是一些需要考虑的因素:
- 计算要求: 与传统过滤技术相比,用于自监督去噪的深度神经网络架构(尤其是基于 Transformer 的模型)可能需要大量的计算能力和内存资源。
- 模型设计复杂性: 实现最佳结果需要仔细选择模型设置,例如掩码策略和损失函数,这些在不同的噪声类型中可能有所不同。
- 评估挑战: 常见的图像质量指标并不总是与去噪后的图像看起来有多自然或真实相符,因此通常需要视觉或任务特定的检查。
Link to this section关键要点#
自监督去噪帮助 AI 模型直接从噪声图像中学习,产生更清晰的结果,同时保留精细细节。它在各种挑战性场景中(如低光、高 ISO 和精细图像)有效工作。随着 AI 的不断发展,这些技术可能会在各种计算机视觉应用中发挥至关重要的作用。
加入我们的社区并探索我们的 GitHub 存储库以了解更多关于 AI 的信息。如果您想构建自己的视觉 AI 项目,请查看我们的许可选项。通过访问我们的解决方案页面,探索有关医疗保健中的 AI 和零售业中的视觉 AI 等应用的更多信息。






