遇见 YOLO26: 下一代视觉 AI。
Ultralytics
指南

自监督去噪学习:分步解析

了解自监督学习去噪的工作原理、图像产生噪声的原因,以及用于恢复清晰视觉细节的关键方法和步骤。

ABAbirami Vina
5 min read
用于图像去噪的自监督学习

相机捕捉到的世界并不总是与我们肉眼所见一致。在弱光环境下拍摄的人像,或是快速移动车辆的照片,往往显得颗粒感强、模糊或失真。

慢速传感器、昏暗的环境以及运动会引入微小的噪点,这些噪点会使边缘变得柔和并掩盖重要细节。一旦这种清晰度丢失,即便是先进的AI和机器学习系统也可能难以理解图像的内容,因为许多智能系统正是依赖这些精细细节来高效工作的。

例如,计算机视觉是人工智能的一个分支,使机器能够解读图像和视频。但为了实现准确解读,视觉AI模型需要干净、高质量的视觉数据来学习。

具体来说,像Ultralytics YOLO11和即将推出的Ultralytics YOLO26这样的模型支持目标检测、实例分割和姿态估计等任务,并且可以针对不同的使用场景进行自定义训练。这些任务依赖于边缘、纹理、颜色和精细结构细节等清晰的视觉线索。

当噪声掩盖了这些特征时,模型接收到的训练信号会变弱,从而更难学到准确的模式。因此,即使是少量的噪声也会降低模型在实际应用中的性能。

此前,我们探讨了自监督学习如何对图像进行去噪。在本文中,我们将深入研究自监督去噪技术的工作原理,以及它们如何帮助恢复有价值的视觉信息。让我们开始吧!

Link to this section现实世界图像中常见的噪声类型#

在探讨自监督学习如何用于图像去噪之前,先让我们回顾一下图像最初为何会出现噪声。

现实世界物体和场景的图像很少是完美的。光照不足、传感器质量受限以及快速运动都可能在图像的各个像素中引入随机干扰。这些被称为噪声的像素级干扰降低了整体清晰度,使重要细节难以辨认。

当噪声掩盖了边缘、纹理和细微模式时,计算机视觉系统就难以准确识别物体或解读场景。不同的条件会产生不同类型的噪声,每种噪声都以其独特的方式影响图像。

噪声如何导致图像中的不确定性增加

图1. 噪声导致图像不确定性增加的示例。(来源)

以下是一些图像中最常见的噪声类型:

  • 高斯噪声: 这种噪声表现为由电子传感器干扰或热波动引起的柔和随机颗粒。它遵循高斯(正态)分布,微小的像素变化会模糊细节并降低整体锐度。
  • 泊松噪声: 也称为散粒噪声,这种噪声出现在低光照条件或短曝光时间下。其方差随亮度增加,但在较暗区域往往更明显,因为捕获的光子较少,导致信噪比降低。
  • 椒盐噪声: 这种噪声表现为尖锐的黑色或白色像素点。它通常是由传输错误、位损坏或摄像机传感器故障引起的,往往会导致像素值丢失或损坏。
  • 散斑噪声: 这种噪声表现为颗粒状、斑点状的模式,常见于医学、雷达和超声成像中。它由信号干扰和散射引起,会降低对比度并使边缘更难检测。

Link to this section什么时候应该使用自监督去噪?#

那么,自监督去噪有什么特别之处呢?它在根本不存在干净的真实标签图像,或者获取这些图像过于困难的情况下表现尤为出色。

这种情况常见于低光摄影、高ISO成像、医学和科学成像,或者任何无法避免噪声且收集完美参考数据不现实的环境中。模型无需干净的样本,而是直接从你现有的噪声图像中学习,从而能够适应你所用相机或传感器的特定噪声模式。

如果你想提升下游计算机视觉任务的性能,但数据集充斥着不一致或有噪声的图像,自监督去噪也是一个极佳的选择。通过恢复更清晰的边缘、纹理和结构,这些方法能帮助YOLO等模型更可靠地检测、分割和理解场景。简而言之,如果你正在处理有噪声的数据,且没有干净的训练图像可用,自监督去噪往往是最实用且有效的解决方案。

Link to this section驱动自监督去噪的核心技术#

正如我们之前所见,自监督去噪是一种基于深度学习的AI方法,允许模型直接从有噪声的图像中学习,而不依赖干净的标签。它建立在自监督学习的原则之上,即模型从数据本身生成自己的训练信号。

换句话说,模型可以通过使用有噪声的图像作为输入和学习信号源来进行自我训练。通过比较同一图像的不同损坏版本或预测被遮盖的像素,模型能够学习哪些模式代表真实结构,哪些只是噪声。通过迭代优化和模式识别,网络逐渐提高了区分有意义的图像内容与随机变化的能力。

原始图像与去噪后的图像

图2. 一张原始图像和一张去噪后的图像。(来源)

这得益于引导模型将稳定的图像结构与随机噪声分离开来的特定学习策略。接下来,让我们仔细看看简化这一过程的核心技术和算法,以及每种方法如何帮助模型重建更清晰、更可靠的图像。

Link to this section成对图像去噪方法#

许多早期的自监督去噪方法通过比较同一图像的两个有噪声版本来工作。由于每次捕获或损坏图像时,噪声都会随机变化,但真实结构保持不变,这些差异可以用作模型的学习信号。

这些方法通常被称为成对图像去噪方法,因为它们依赖于在训练期间使用或生成成对的有噪声图像。例如,Noise2Noise方法(由Jaakko Lehtinen及其团队提出)使用同一场景的两张独立噪声图像训练模型。鉴于两张版本之间的噪声模式不同,模型学会了识别代表真实图像的连贯细节。

Noise2Noise 的工作原理

图3. Noise2Noise的工作原理 (来源)

随着时间的推移,这教会了网络抑制随机噪声并保留真实结构,即使它从未见过干净的参考图像。试想一个简单的场景:你在夜间拍摄了两张光线不足的街道照片。

每张图像包含相同的建筑物、灯光和阴影,但颗粒状的噪点出现在不同的位置。通过在训练期间比较这两张有噪声的照片,自监督模型可以学习哪些视觉模式是稳定的,哪些是由噪声引起的,从而最终提高其重建更清晰图像的能力。

Link to this section基于盲点的自监督去噪方法#

虽然成对方法依赖于比较同一图像的两个不同损坏版本,但盲点方法采用了不同的方法。它们让模型从单张噪声图像中学习,方法是隐藏选定的像素,使网络无法看到它们被损坏的值。

然后,模型必须仅使用周围的上下文来预测隐藏的像素。核心思想是噪声是随机的,但图像的底层结构并非如此。

通过阻止模型复制像素的噪声值,盲点方法鼓励模型基于稳定的图像模式(如附近的边缘、纹理或颜色梯度)推断该像素应该是什么。Noise2Void(由Alexander Krull及其团队引入)和Noise2Self(由Joshua Batson和Loïc Royer开发)等技术通过遮盖单个像素或小区域,并训练模型来重建它们,实现了这一原则。

更先进的方法,包括Noise2Same和PN2V,通过在多个遮盖版本中强制执行一致的预测,或通过显式建模噪声分布来估计不确定性,从而提高了鲁棒性。由于这些方法只需要单张噪声图像,它们在捕获干净或成对图像不切实际或不可能的领域特别有用,例如显微镜检查、天文学、生物医学成像或低光摄影。

Link to this sectionTransformer支持的去噪方法#

大多数成对和基于盲点的自监督去噪方法依赖于卷积神经网络 (CNN) 或去噪网络。CNN是这些方法的绝佳选择,因为它们专注于局部模式,即边缘、纹理和细微细节。

类似U-Net的架构被广泛使用,因为它们将细粒度特征与多尺度信息结合在一起。然而,CNN主要在有限的邻域内操作,这意味着它们可能会遗漏跨越图像较大区域的重要关系。

为了解决这一限制,引入了Transformer支持的最先进去噪方法。该方法不再只关注附近的像素,而是利用注意力机制来理解图像不同部分之间的相互关联。

一些模型使用全局注意力,而另一些则使用基于窗口或分层的注意力来减少计算量,但总的来说,它们的设计旨在捕捉CNN本身无法捕捉的长程结构。这种更广阔的视角有助于模型恢复需要跨图像信息的重复纹理、平滑表面或大型物体。

Link to this section其他图像去噪方法#

除了自监督技术外,还有几种其他清理噪声图像的方法。传统的如双边滤波、小波去噪和非局部均值等方法,使用简单的数学规则来平滑噪声,同时试图保留重要的细节。

同时,深度学习方法也存在,包括从干净-噪声图像对中学习的监督模型,以及生成更锐利、更真实结果的生成对抗网络 (GAN)。然而,这些方法通常需要更高质量的图像进行训练。

Link to this section逐步拆解自监督图像去噪的工作原理#

既然我们刚刚浏览了多种不同的技术,你可能会好奇,既然它们各自使用不同的架构,它们是否以完全不同的方式工作?然而,它们都遵循一个相似的流程:从数据准备开始,到模型评估结束。

接下来,让我们更仔细地看看整体自监督图像去噪流程是如何逐步工作的。

Link to this section第1步:预处理和标准化#

在模型开始从有噪声的图像中学习之前,第一步是确保所有图像看起来一致。真实的照片差异很大。

有些图像可能太亮,有些太暗,有些颜色可能略有偏差。如果我们直接将这些变体输入模型,它就很难专注于学习噪声的样子。

为了处理这个问题,每张图像都要经过标准化和基本预处理。这可能包括将像素值缩放到标准范围、校正强度变化,或裁剪和调整大小。关键在于模型接收到可以用作稳定、可比输入的干净数据。

Link to this section第2步:创建自监督训练信号#

图像标准化后,下一步是创建一个训练信号,使模型无需看到干净图像即可学习。自监督去噪方法通过确保模型无法直接复制它接收到的有噪声像素值来做到这一点。

相反,它们创造了模型必须依赖图像周围上下文的情况,周围的上下文包含稳定的结构,而不是不可预测的噪声。不同的方法以略有不同的方式实现这一点,但核心思想是相同的。

一些方法暂时隐藏或遮盖某些像素,以便模型必须根据其邻居推断它们,而另一些方法则生成同一噪声图像的单独损坏版本,以便输入和目标包含独立的噪声。在这两种情况下,目标图像都携带了有意义的结构信息,但阻止了网络访问它应该预测的原始像素噪声值。

由于噪声是随机变化的,而底层图像保持一致,这种设置自然鼓励模型学习真实结构的样子,并忽略从一个版本到另一个版本变化的噪声。

Link to this section第3步:学习去噪以恢复图像结构#

有了训练信号,模型就可以通过训练开始学习如何将有意义的图像结构与噪声分离开来。每次它预测一个被遮盖或重新损坏的像素时,它都必须依赖周围的上下文,而不是最初占据该位置的噪声值。

经过多次迭代或轮次,这教会了网络识别在图像中保持稳定的模式类型,如边缘、纹理和平滑表面。它还学会了忽略表征噪声的随机波动。

例如,想象一张表面看起来颗粒感极强的低光照片。虽然噪声在不同像素间变化,但底层表面仍然是平滑的。通过反复推断这些区域的隐藏像素,模型逐渐变得更擅长识别噪声下的稳定模式并更清晰地重建它。

通过模型训练过程,网络学习了图像结构的内部表示。这使得模型即使在输入严重损坏的情况下也能恢复连贯的细节。

Link to this section第4步:验证和降噪结果#

在模型学会预测隐藏或重新损坏的像素后,最后一步是评估它在完整图像上的表现。在测试期间,模型接收整张噪声图像,并根据它所学的图像结构产生一个完整的去噪版本。为了衡量该过程的有效性,输出结果会与干净的参考图像或标准基准数据集进行比较。

两种常用的指标是PSNR(峰值信噪比),它衡量重建与干净基准的接近程度,以及SSIM(结构相似性指数),它评估边缘和纹理等重要特征的保留程度。分数越高通常表示去噪越准确、视觉效果越可靠。

Link to this section用于训练和基准测试的图像数据集#

自监督去噪研究(出现在IEEE期刊、CVF会议(如CVPR、ICCV和ECCV)以及广泛发布在arXiv上)通常依赖于合成数据集和真实世界数据集的组合,以评估深度学习方法在受控和实际条件下的模型性能。一方面,合成数据集从干净图像开始并添加人工噪声,这使得使用PSNR和SSIM等指标比较方法变得容易。

以下是一些常用于基准测试并添加了合成噪声的流行数据集:

  • Kodak24: 该数据集提供高质量的自然场景照片,常用于视觉上比较去噪结果。
  • DIV2K: 该高分辨率数据集包含多种多样的详细图像,用于评估纹理保真度和整体恢复质量。

另一方面,真实世界噪声数据集包含直接从相机传感器在低光、高ISO或其他挑战性条件下捕获的图像。这些数据集测试模型是否能处理难以模拟的复杂非高斯噪声。

以下是一些流行的真实世界噪声数据集:

  • SIDD: 该数据集提供在各种光照环境下用智能手机传感器捕获的真实噪声和干净图像对。
  • DND: 它包含捕获消费级相机中真实传感器噪声模式的高ISO照片。

来自 DND 数据集的示例

图4. 来自DND数据集的示例。(来源)

Link to this section训练自监督去噪模型时要考虑的因素#

如果你打算训练一个基于深度学习的自监督去噪模型,以下是一些需要考虑的因素和局限性:

  • 匹配噪声分布: 用于训练的噪声图像应反映模型在实际使用中会遇到的噪声;噪声不匹配会导致泛化能力差。
  • 确保训练数据多样性: 变化有限会导致在复杂纹理中出现过拟合或过度平滑。
  • 注意噪声类型限制: 自监督方法在处理结构化、相关性强或非随机噪声时更困难。
  • 跨设备或传感器进行测试: 去噪性能在不同的相机或成像系统之间可能会有很大差异。

Link to this section关键要点#

自监督去噪为AI爱好者提供了一种仅使用我们现有噪声数据来清理图像的实用方法。通过学习识别噪声下的真实结构,这些方法可以恢复重要的视觉细节。随着去噪技术的不断进步,它很可能会使各种计算机视觉任务在日常环境中变得更加可靠。

成为我们不断壮大的社区一员吧!深入我们的GitHub存储库以了解更多关于AI的信息。如果你正在寻求构建计算机视觉解决方案,请查看我们的许可选项。探索零售领域计算机视觉的好处,并了解制造业AI如何带来变革!

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅