遇见 YOLO26: 下一代视觉 AI。
Ultralytics
集成

关于 U-Net 架构及其应用的指南

了解 U-Net 架构、它如何支持图像分割、其应用场景,以及它在计算机视觉演进中的重要意义。

ABAbirami Vina
5 min read
用于图像分割的 U-Net 架构

计算机视觉是人工智能 (AI) 的一个分支,专注于分析视觉数据。它为许多前沿系统奠定了基础,例如工厂产品检测自动化以及辅助自动驾驶汽车路面导航。

最广为人知的计算机视觉任务之一是目标检测。此任务使模型能够使用边界框定位并识别图像中的对象。虽然边界框对多种应用很有帮助,但它们仅能提供对象位置的大致估计。

然而,在医疗保健等对精度要求极高的领域,视觉 AI 的用例不仅限于识别对象。通常,它们还需要获取与对象精确形状和位置相关的信息。

这正是计算机视觉任务——分割——旨在解决的问题。分割模型不再使用边界框,而是从像素层面检测对象。多年来,研究人员已经开发出专门用于分割的计算机视觉模型

U-Net 就是其中之一。尽管更新、更先进的模型已经超越了它的性能,但 U-Net 在计算机视觉历史中占据着重要地位。在本文中,我们将深入探讨 U-Net 架构、它的工作原理、应用场景,以及它与当今更现代的分割模型相比有何不同。

使用 U-Net 深度学习模型进行航拍场景分割

图 1. 使用 U-Net 深度学习模型进行分割的示例。(来源)

Link to this section图像分割的发展史#

在我们深入了解 U-Net 之前,先让我们更好地了解一下图像分割模型是如何演变的。

最初,计算机视觉依赖于边缘检测、阈值处理或区域生长等传统技术来分离图像中的对象。这些技术用于通过边缘检测对象边界、根据像素强度分离区域以及对相似像素进行分组。它们适用于简单的情况,但在图像存在噪声、形状重叠或边界不清时往往会失效。

随着深度学习在 2012 年的兴起,研究人员在 2014 年引入了全卷积网络 (FCN) 的概念,用于语义分割等任务。这些模型替换了卷积网络的某些部分,使计算机能够一次观察整张图像,而不是将其分解为更小的部分。这使得模型能够创建详细的地图,更清晰地展示图像中的内容。

基于深度学习的分割算法演进时间轴

图 2. 基于深度学习的分割算法的演变。(来源)

在 FCN 的基础上,弗莱堡大学的研究人员于 2015 年引入了 U-Net。它最初是为生物医学图像分割而设计的。具体而言,U-Net 的设计初衷是在标注数据有限的情况下表现出色。

与此同时,后期的版本(如 UNet++ 和 TransUNet)增加了注意力层和更好的特征提取等升级功能。注意力层有助于模型专注于关键区域,而增强的特征提取则能捕捉更详细的信息。

Link to this section什么是 U-Net,特征如何在模型中流动?#

U-Net 是一种专门为图像分割而构建的深度学习模型。它以图像作为输入,并生成一个分割掩码,根据对象或区域所属的类别对每个像素进行分类。

该模型因其 U 形架构而得名。它由两个主要部分组成:一个用于压缩图像并学习其特征的编码器,以及一个将其扩展回原始大小的解码器。这种设计形成了一个对称的 U 形,有助于模型理解图像的整体结构及其精细细节。

U-Net 的一个关键特征是使用跳跃连接,它允许信息从编码器直接传递到解码器。这意味着模型可以在图像压缩时保留可能丢失的重要细节。

Link to this sectionU-Net 架构概览#

以下是 U-Net 架构工作原理的简述:

  • 输入图像: U-Net 从 2D 图像开始,例如医学扫描或卫星照片。目标是为图像中的每个像素分配一个类别标签。
  • 下采样: 图像通过学习重要视觉特征的卷积层。随着图像在不同层之间移动,其分辨率会降低,模型能够识别出更广泛的模式。
  • 瓶颈层: 在网络中心,特征图在捕捉高级语义特征的同时达到最小空间分辨率。简单来说,特征图的这种压缩表示就是输入的整体上下文。
  • 上采样: 网络随后通过逐渐增加分辨率来重建图像。转置卷积有助于将特征图扩展回原始大小。
  • 跳跃连接: 下采样路径中的特征图与上采样路径中的特征图进行拼接。这有助于在保留细粒度空间细节的同时集成高级上下文信息。
  • 输出是分割图: 最终输出是与输入大小匹配的逐像素分割掩码。每个像素都被分类为对象、背景或感兴趣区域等类别。

U-Net 编码器-解码器架构示意图

图 3. U-Net 架构图。(来源)

Link to this section理解 ViT 与 U-Net 的区别#

在探索 U-Net 时,你可能想知道它与其他深度学习模型(例如同样可以执行分割任务的视觉变换器 (ViT))有何不同。虽然这两种模型都可以执行类似的任务,但它们在构建方式和处理分割的方法上有所不同。

U-Net 通过编码器-解码器结构中的卷积层在像素级别处理图像。它通常用于需要精确分割的任务,如医学扫描或自动驾驶汽车场景。

另一方面,视觉变换器 (ViT) 将图像分解为小块,并通过注意力机制同时处理它们。它使用自注意力(一种允许模型权衡图像不同部分相对于彼此重要性的机制)来捕捉图像不同部分之间的相互关系,这与 U-Net 的卷积方法不同。

另一个重要的区别是,ViT 通常需要更多数据才能良好运行,但它在捕捉复杂模式方面非常出色。相比之下,U-Net 在较小的数据集上表现良好,训练速度更快,且通常需要的训练时间更少。

Link to this sectionU-Net 模型应用#

既然我们已经更好地了解了 U-Net 是什么以及它是如何工作的,让我们探讨一下 U-Net 在不同领域中的应用。

Link to this section医学影像中的脑出血分割#

U-Net 成为了一种用于复杂医学图像像素级分割的可靠方法,特别是在其研究鼎盛时期。研究人员利用它来突出显示医学扫描中的关键区域,例如 CT 和 MRI 图像中的肿瘤和内出血迹象。这种方法显著提高了诊断的准确性,并简化了研究环境中复杂医学数据的分析。

U-Net 在医疗保健研究中影响的一个例子是它被用于识别医学扫描中的中风和脑出血。研究人员可以使用 U-Net 分析头部扫描图并突出显示受关注区域,从而能够更快地识别需要立即关注的病例。

使用 3D U-Net 对医学扫描图像中的出血性中风病灶进行分割

图 4. 使用 3D U-Net 对出血性中风病灶进行分割。(来源)

Link to this section农业中的作物分割#

研究人员使用 U-Net 的另一个领域是农业,特别是针对作物、杂草和土壤的分割。它帮助农民监控植物健康、估算产量,并在大型农场中做出更好的决策。例如,U-Net 可以将作物与杂草区分开来,使除草剂喷洒更有效并减少浪费。

为了解决无人机图像中的运动模糊等挑战,研究人员利用图像去模糊技术改进了 U-Net。这确保了即使在移动过程中收集数据(例如航空测量期间),也能获得更清晰的分割结果。

U-Net 将农田中的作物与杂草区分开来

图 5. 使用 U-Net 将农田中的作物与杂草分离。(来源)

Link to this section自动驾驶#

在更先进的 AI 模型出现之前,U-Net 在探索分割如何增强自动驾驶方面发挥了重要作用。在自动驾驶汽车中,U-Net 的语义分割可用于将图像中的每个像素分类为道路、车辆、行人和车道线等类别。这为汽车提供了其周围环境的清晰视野,有助于安全导航和有效的决策。

使用 U-Net 分割可行驶区域的道路场景

图 6. 使用 U-Net 分割可行驶区域的道路场景。(来源)

Link to this sectionU-Net 的优缺点#

即使在今天,由于其在简洁性、准确性和适应性之间的平衡,U-Net 仍然是研究人员进行图像分割时的不错选择。以下是使其脱颖而出的部分关键优势:

  • 适应不同模态: U-Net 已被适配用于不同数据类型,包括 3D 医学扫描、卫星图像甚至视频帧。
  • 优化后推理速度快: 当经过适当调整时,U-Net 可以高效运行,使其适用于实时或准实时应用。
  • 开源与社区支持: U-Net 在各大主流深度学习库中均可用,并拥有庞大的开发者和研究人员社区支持。

虽然 U-Net 有很多优势,但也存在一些需要注意的限制。以下是一些需要考量的因素:

  • 对数据质量敏感: U-Net 的性能可能会受到劣质数据(如噪声图像或低分辨率图像)的负面影响。
  • 小数据集容易过拟合: 尽管 U-Net 在有限数据下表现良好,但如果未进行适当的正则化,尤其是在数据集过小或缺乏多样性时,它仍然存在过拟合的风险。
  • 计算资源需求: U-Net 的计算开销可能很大,特别是在处理大型数据集时,训练过程需要大量的硬件资源。

Link to this section关键要点#

U-Net 是图像分割演进过程中的一个重要里程碑。它证明了深度学习模型可以在使用较小数据集的情况下提供准确的结果,特别是在医学影像等领域。

这一突破为各个领域更高级的应用铺平了道路。随着计算机视觉的持续发展,像 U-Net 这样的分割模型在使机器能够高精度理解和解释视觉数据方面依然起着根本性作用。

想要构建你自己的计算机视觉项目吗?探索我们的 GitHub 仓库 以深入了解 AI,并查看我们的 许可选项。通过访问我们的解决方案页面,了解医疗保健领域的计算机视觉如何提高效率,并探索 零售业中的 AI 的影响!立即加入我们日益壮大的社区

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅