遇见 YOLO26: 下一代视觉 AI。
Ultralytics
指南

什么是 ResNet-50,它在计算机视觉中的相关性是什么?

了解 ResNet-50 的架构如何实现医疗保健、制造和自动驾驶系统等现实应用中的图像分类。

ABAbirami Vina
5 min read
用于图像分类的 ResNet-50 架构

自动化图像分析在超速车辆检测或医学图像分析等应用中变得越来越普遍。推动这些创新的技术是 计算机视觉 或视觉 AI。它是人工智能 (AI) 的一个分支,使机器能够像人类一样解释和理解图像与视频。

为了构建此类 计算机视觉解决方案,开发者依赖于能够从大量视觉数据中学习的视觉 AI 模型。多年来,研究人员开发了更新、更先进的模型,在 视觉 AI 任务(如图像分类(为图像分配标签)、目标检测(定位并识别图像中的物体)和实例分割(检测物体并勾勒出其精确形状))中表现出色。

然而,回顾并理解早期的模型有助于弄清当今的计算机视觉系统是如何工作的。例如,一个关键的例子是 ResNet-50,这是一个引入了快捷连接(shortcut connections)概念的有影响力模型——这些简单的路径能够帮助模型更快、更准确地进行学习。

这一创新使得有效地训练更深层的神经网络成为可能,从而显著提升了 图像分类 的性能,并塑造了后续许多模型的设计。在本文中,我们将探讨 ResNet-50,它的工作原理,以及它在计算机视觉演进中的意义。让我们开始吧!

Link to this section什么是 ResNet-50?#

ResNet-50 是基于一种称为 卷积神经网络 (CNN) 的神经网络的计算机视觉模型。CNN 旨在通过学习图像中的模式(如边缘、颜色或形状)并使用这些模式来识别和分类物体,从而帮助计算机理解视觉信息。

ResNet-50 由微软研究院的研究人员于 2015 年提出,因其在大规模图像识别任务中的准确性和效率,迅速成为该领域最具影响力的模型之一。

ResNet-50 的一个关键特性是它使用了残差连接(residual connections),也称为快捷连接。这些简单的路径让模型可以在学习过程中跳过某些步骤。换句话说,这些快捷方式不是强迫模型将信息通过每一层,而是允许它更直接地向前传递重要细节。这使得学习过程更快、更可靠。

ResNet 架构中残差连接的示意图

图 1。ResNet 架构中残差连接的概览。

这种设计有助于解决深度学习中一个常见的问题,称为梯度消失问题。在非常深的模型中,重要信息在穿过多层时可能会丢失,导致模型难以学习。

残差连接通过保持信息从始至终清晰流动来帮助预防这种情况。这就是该模型被称为 ResNet-50 的原因:ResNet 代表残差网络,而“50”是指它用于处理图像的层数。

Link to this sectionResNet-50 工作原理概述#

ResNet-50 拥有结构良好的组织,使模型能够在不丢失重要信息的情况下实现深层化。它遵循一种简单、可重复的模式,在保持高效的同时实现强大的性能。

以下是 ResNet-50 架构工作原理的详细介绍:

  • 基础 特征提取 模型首先应用一种称为卷积的数学运算。这涉及在图像上滑动小滤镜(称为核),以生成特征图——这是图像的新版本,突显了边缘或纹理等基本模式。这就是模型开始拾取有用视觉信息的方式。
  • 学习复杂特征: 当数据在网络中移动时,特征图的尺寸会变小。这是通过池化或使用步长更大的滤镜(称为步幅)等技术完成的。与此同时,网络创建更多的特征图,帮助它捕捉越来越复杂的模式,如形状、物体部件或纹理。
  • 压缩与解压数据: 每个阶段都会压缩数据、进行处理,然后再将其展开。这有助于模型在节省内存的同时进行学习。
  • 快捷连接: 这些是简单的路径,允许信息跳过某些层直接向前。它们使学习过程更加稳定且高效。
  • 做出 预测 在网络的末端,所有学到的信息被组合并传递通过一个 softmax 函数。这会输出所有可能类别的概率分布,指示模型对每个预测的置信度——例如,90% 猫,9% 狗,1% 车。

ResNet-50 架构示意图

图 2。ResNet-50 架构。

Link to this sectionResNet-50 的主要特性#

尽管 ResNet-50 最初是为图像分类设计的,但其灵活的设计使其在计算机视觉的许多领域中都很有用。让我们来看看使 ResNet-50 脱颖而出的一些特性。

Link to this section使用 ResNet-50 进行图像分类#

ResNet-50 主要用于 图像分类,其目标是为图像分配一个标签。例如,给定一张照片,模型可以根据它看到的主要物体将其标记为狗、猫或飞机。

其可靠的设计以及在 PyTorch 和 TensorFlow 等广泛使用的深度学习库中的可用性,使 ResNet-50 成为早期在大规模图像数据集上进行训练的热门选择。最著名的例子之一是 ImageNet,这是一个用于评估和比较计算机视觉模型的大型标注图像集合。

虽然较新的模型(如 Ultralytics YOLO11)表现更佳,但由于其在准确性、速度和简洁性之间的稳固平衡,ResNet-50 仍被普遍用作基准测试。

使用 ResNet-50 对狗的图像进行分类

图 3。使用 ResNet-50 对狗进行分类的示例。

Link to this section由 ResNet-50 主干支持的目标检测#

虽然图像分类是关于识别图片中的主要物体,但 目标检测 更进一步,通过在同一图像中查找并标注多个物体。例如,在繁忙街道的图像中,模型可能需要检测汽车、公共汽车和行人——并找出每个物体的位置。

ResNet-50 被用作其中一些模型的主干(backbone)。这意味着它负责处理工作的第一部分:分析图像并提取描述图像内容及其位置的重要细节。这些细节随后被传递到模型的下一部分,即检测头(detection head),它会对图像中的物体及其位置做出最终判断。

流行的检测模型(如 Faster R-CNN 和 DETR)都在这个特征提取步骤中使用了 ResNet-50。因为它在捕捉细微细节和图像整体布局方面表现出色,所以即使在复杂场景中,它也能帮助这些模型做出准确的预测。

Link to this section使用 ResNet-50 进行迁移学习#

ResNet-50 模型的另一个有趣之处在于它支持 迁移学习 的能力。这意味着该模型最初在大型数据集(如 ImageNet)上进行图像分类训练,可以以极少的数据适配到新任务中。

模型的大部分层都被复用,而无需从零开始,只有最后的分类层被替换并针对新任务进行了重新训练。这节省了时间,在标注数据有限时尤其有用。

Link to this sectionResNet-50 的计算机视觉应用#

ResNet-50 的架构使其在广泛的计算机视觉应用中非常有用。它在深度学习的早期阶段尤为重要,帮助将视觉 AI 技术从研究带入了现实应用。通过解决关键挑战,它为我们在当今应用中看到的更先进的模型铺平了道路。

Link to this section由 ResNet-50 驱动的医学成像#

ResNet-50 是早期用于基于深度学习的医学成像的模型之一。研究人员利用它来识别 X 射线、MRI 和其他诊断扫描中的疾病模式。例如,它已帮助 检测肿瘤 并对 糖尿病视网膜图像 进行分类,以支持眼科诊断。

虽然现在临床工具中使用了更先进的模型,但 ResNet-50 在早期的医学 AI 研究中发挥了关键作用。它的易用性和模块化设计使其成为创建诊断系统原型的合适选择。

基于 ResNet-50 的医学影像脑肿瘤检测

图 4。基于 ResNet-50 的脑肿瘤检测。

Link to this section由 ResNet-50 驱动的工业自动化#

同样,ResNet-50 也被应用于工业环境。例如,在制造业中,它已被用于研究和试点系统,以 检测材料表面缺陷,如钢材、混凝土和涂漆部件。

它还曾在测试设置中用于识别铸造或装配过程中形成的虫孔、裂纹或沉积物。ResNet-50 非常适合这些任务,因为它能发现表面纹理中的细微差异,这是质量检测的一项重要能力。

虽然现在生产系统中通常使用 YOLO11 等更先进的模型,但 ResNet-50 在学术研究和基准测试中仍然发挥着重要作用,尤其是在图像分类任务方面。

使用 ResNet-50 进行表面缺陷检测

图 5。使用 ResNet-50 进行表面检测。

Link to this sectionResNet-50 的优势与局限性#

以下是 ResNet-50 的一些优势:

  • 强大的基线性能: ResNet-50 在广泛的任务中提供稳固的准确性,使其成为研究和应用项目中值得信赖的基准。
  • 文档详尽且研究广泛: 其架构易于理解且文档详尽,这使得开发者和研究人员在排查问题和学习时更加轻松。
  • 跨领域通用: 从医学成像到制造业,ResNet-50 已成功应用于各种现实问题,证明了其灵活性。

同时,以下是 ResNet-50 的一些局限性:

  • 资源占用高: ResNet-50 比轻量级模型需要更多的内存和计算能力,这使得它可能不太适合移动设备或实时应用。
  • 在小型 数据集 上过拟合: 由于其深度和复杂性,ResNet-50 如果在没有适当正则化技术的情况下在有限数据上进行训练,可能会出现过拟合。
  • 固定输入尺寸: ResNet-50 通常期望图像具有特定的尺寸(如 224×224 像素),因此图像通常需要调整大小或裁剪,这有时会移除重要的细节。

Link to this section关键要点#

ResNet-50 证明了极深的网络可以被有效训练,同时在视觉任务上仍能表现出色。它的架构为构建更深、运行可靠的模型提供了一个清晰且实用的框架。

在其发布后,研究人员扩展了该设计,创建了更深的版本,如 ResNet-101 和 ResNet-152。总体而言,ResNet-50 是一个关键模型,帮助塑造了当今深度学习在计算机视觉中的应用方式。

加入我们不断成长的 社区!浏览我们的 GitHub 仓库 以了解更多关于 AI 的信息。准备好开始你自己的计算机视觉项目了吗?查看我们的 许可选项。通过访问我们的解决方案页面,探索 农业 AI医疗视觉 AI

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅