敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

U-Net 架构及其应用指南

Abirami Vina

5 分钟阅读

2025年7月15日

了解 U-Net 架构,它如何支持图像分割,其应用以及它在计算机视觉发展中的重要性。

计算机视觉是人工智能(AI)的一个分支,专注于分析视觉数据。 它为许多尖端系统铺平了道路,例如自动化工厂中产品的检查过程以及帮助自动驾驶汽车在道路上导航。 

目标检测是最著名的计算机视觉任务之一。该任务使模型能够使用边界框在图像中定位和识别对象。虽然边界框对各种应用都很有用,但它们只能提供对象位置的粗略估计。

然而,在医疗保健等精度至关重要的领域,视觉 AI 的应用不仅仅是识别物体。通常,它们还需要与物体的确切形状和位置相关的信息。

这正是计算机视觉任务——分割——的设计目的。分割模型不是使用边界框,而是在像素级别检测对象。多年来,研究人员开发了专门用于分割的计算机视觉模型

U-Net 就是这样一个模型。虽然更新、更先进的模型已经超越了它的性能,但 U-Net 在计算机视觉发展史上占有重要地位。在本文中,我们将仔细研究 U-Net 架构、它的工作原理、它的应用领域,以及它与当今可用的更现代的分割模型的比较。

图 1. 使用 U-Net 深度学习模型进行分割的示例。(来源

图像分割的历史

在深入了解 U-Net 之前,让我们首先更好地了解图像分割模型是如何演变的。

最初,计算机视觉依赖于诸如边缘检测、阈值分割或区域生长等传统技术来分离图像中的对象。这些技术用于使用边缘检测对象边界、通过像素强度分离区域以及对相似像素进行分组。它们适用于简单的情况,但当图像具有噪声、重叠形状或不清晰的边界时,通常会失败。

随着深度学习在 2012年 的兴起,研究人员在 2014 年引入了全卷积网络(FCN)的概念,用于语义分割等任务。这些模型替换了卷积网络的某些部分,使计算机能够一次性查看整个图像,而不是将其分解成更小的片段。这使得模型能够创建详细的地图,更清晰地展示图像中的内容。

图 2. 基于深度学习的分割算法的演变。(来源

在 FCN 的基础上,弗莱堡大学的研究人员于 2015 年推出了 U-Net。它最初是为生物医学图像分割而设计的。特别是,U-Net 旨在在标注数据有限的情况下表现良好。 

同时,后来的版本(如 UNet++ 和 TransUNet)增加了诸如注意力层和更好的特征提取等升级。 注意力层帮助模型专注于关键区域,而增强的特征提取则捕获更详细的信息。

什么是 U-Net?其特征如何在模型中流动?

U-Net 是一种专门为图像分割构建的深度学习模型。它以图像作为输入,并生成一个分割掩码,该掩码根据每个像素所属的对象或区域对其进行分类。

该模型因其 U 形架构而得名。它由两个主要部分组成:一个压缩图像并学习其特征的编码器,以及一个将其扩展回原始大小的解码器。这种设计创建了一个对称的 U 形,这有助于模型理解图像的整体结构及其更精细的细节。

U-Net 的一个关键特性是跳跃连接的使用,它允许来自编码器的信息直接传递到解码器。这意味着该模型可以保留在图像被压缩时可能丢失的重要细节。 

U-Net 架构概述

以下是 U-Net 架构工作原理的概览:

  • 输入图像: U-Net 从 2D 图像开始,例如医学扫描或卫星照片。目标是将类别标签分配给图像中的每个像素。

  • 降采样:图像通过卷积层,卷积层学习重要的视觉特征。 随着图像在不同层中移动,其分辨率会降低,并且模型会识别更广泛的模式。

  • 瓶颈层: 在网络的中心,特征图达到其最小的空间分辨率,同时捕获高级语义特征。 简而言之,特征图的这种压缩表示是输入的整体上下文。

  • 上采样:然后,网络通过逐渐增加分辨率来重建图像。转置卷积有助于将特征图扩展回原始大小。

  • 跳跃连接:来自下采样路径的特征图与上采样路径中的特征图连接在一起。这有助于在整合高级上下文信息的同时保留细粒度的空间细节。
  • 输出是分割图:最终输出是像素级的分割掩码,与输入大小相匹配。每个像素被分类到诸如对象、背景或感兴趣区域之类的类别中。
图 3. U-Net 架构图。(来源

了解 ViT 和 U-Net 之间的区别

当您探索 U-Net 时,您可能想知道它与其他深度学习模型(如Vision Transformer (ViT))有何不同,后者也可以执行分割任务。虽然这两种模型都可以执行类似的任务,但它们的构建方式和处理分割的方式有所不同。

U-Net 通过在编码器-解码器结构中通过卷积层处理像素级别的图像来工作。它通常用于需要精确分割的任务,如医学扫描或自动驾驶汽车场景。 

另一方面,Vision Transformer (ViT) 将图像分解成小块,并通过注意力机制同时处理它们。它使用自注意力(一种允许模型权衡图像不同部分相对于彼此的重要性的机制)来捕获图像的不同部分如何相互关联,这与 U-Net 的卷积方法不同。

另一个重要的区别是,ViT 通常需要更多的数据才能良好运行,但它非常擅长捕捉复杂的模式。另一方面,U-Net 在较小的数据集上表现良好,训练速度更快,通常需要的训练时间更少。

U-Net 模型的应用

既然我们对U-Net是什么以及它如何工作有了更深入的了解,那么让我们来探索U-Net在不同领域的应用。

医学影像中的脑出血分割

U-Net 已成为复杂医学图像像素级分割的可靠方法,尤其是在其研究鼎盛时期。研究人员使用它来突出医学扫描中的关键区域,例如CT和MRI图像中的肿瘤和内出血迹象。这种方法显著提高了诊断的准确性,并简化了研究环境中复杂医学数据的分析。

U-Net 在医疗保健研究中的影响的一个例子是它在识别医疗扫描中的中风和脑出血方面的应用。研究人员可以使用 U-Net 分析头部扫描并突出显示需要关注的区域,从而更快地识别需要立即处理的病例。

图 4. 使用 3D U-Net 对出血性中风病灶进行分割。

农业中的作物分割

研究人员使用 U-Net 的另一个领域是在农业中,特别是用于分割作物、杂草和土壤。它可以帮助农民监测植物健康、估算产量,并在大型农场做出更好的决策。例如,U-Net 可以将作物与杂草分离,从而提高除草剂施用的效率并减少浪费。

为了解决无人机图像中运动模糊等挑战,研究人员通过图像去模糊技术改进了 U-Net。这确保了更清晰的分割,即使在移动中(例如在航空测量期间)收集数据时也是如此。

图 5. 使用 U-Net 在农田中分离作物和杂草。(来源

自动驾驶

在引入更先进的AI模型之前,U-Net在探索分割如何增强自动驾驶方面发挥了至关重要的作用。在自动驾驶汽车中,U-Net的语义分割可用于将图像中的每个像素分类为道路、车辆、行人、车道标记等类别。这为汽车提供了清晰的周围环境视图,有助于安全导航和有效决策。

图 6. 使用 U-Net 分割可行驶区域的道路场景。(来源

U-Net 的优缺点

即使在今天,由于其在简单性、准确性和适应性之间的平衡,U-Net仍然是研究人员进行图像分割的良好选择。以下是使其脱颖而出的一些关键优势:

  • 适用于不同的模态:U-Net 已经适应于不同的数据类型,包括 3D 医学扫描、卫星图像,甚至视频帧。

  • 优化后的快速推理: 经过适当调整后,U-Net 可以高效运行,使其适用于实时或近实时应用。

  • 开源和社区:  U-Net可在主要的深度学习库中使用,并由庞大的开发人员和研究人员社区提供支持。

虽然 U-Net 有很多优点,但也需要注意一些局限性。以下是一些需要考虑的因素: 

  • 对数据质量敏感:U-Net的性能会受到低质量数据(如嘈杂或低分辨率图像)的负面影响。

  • 小数据集容易过拟合:虽然 U-Net 在有限的数据下表现良好,但如果未正确正则化,它仍然存在过拟合的风险,尤其是在数据集太小或缺乏多样性的情况下。

  • 计算资源: U-Net 的计算成本可能很高,尤其是在处理大型数据集时,需要大量的硬件资源进行训练。

主要要点

U-Net 是图像分割发展历程中的一个重要里程碑。它证明了深度学习模型可以使用较小的数据集提供准确的结果,尤其是在医学成像等领域。 

这一突破为各个领域更高级的应用铺平了道路。随着计算机视觉的不断发展,像 U-Net 这样的分割模型在使机器能够高精度地理解和解释视觉数据方面仍然至关重要。

想要构建您自己的计算机视觉项目吗?浏览我们的 GitHub 仓库 以更深入地了解人工智能,并查看我们的 许可选项。访问我们的解决方案页面,了解 医疗保健领域的计算机视觉 如何提高效率,并探索 人工智能在零售业 中的影响!立即加入我们不断壮大的社区

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板