术语表

骨干网

了解骨干网在深度学习中的作用,探索 ResNet 和 ViT 等顶级架构,并学习它们在现实世界中的人工智能应用。

骨干网是深度学习模型的核心组件,尤其是在计算机视觉(CV)领域。它是主要的特征提取网络。它的主要工作是获取原始输入数据(如图像),并将其转化为一组高级特征或特征图,用于对象检测图像分割分类等下游任务。我们可以将骨干网视为神经网络 (NN)的一部分,它可以学习 "观察 "和理解图像中的基本模式,如边缘、纹理、形状和物体。

骨架的工作原理

骨干网通常是在大规模图像分类数据集ImageNet 上预先训练过的深度卷积神经网络(CNN)。这种预训练过程是迁移学习的一种形式,它教会网络识别大量的通用视觉特征库。在为新任务构建模型时,开发人员通常会使用这些预训练骨干,而不是从头开始。这种方法大大减少了训练时间和所需的标注数据量,同时通常还能提高模型性能。骨干网提取的特征随后会传递给网络的 "颈部 "和 "头部",由它们进行进一步处理并生成最终输出。骨干网的选择通常涉及准确性、模型大小和推理延迟之间的权衡,这对实现实时性能至关重要。

常见的主干架构

骨干网的设计经过多年发展,每一种新架构都能提高效率和性能。一些最有影响力的主干网架构包括

  • 残差网络(ResNet)ResNet 模型由微软研究院推出,利用 "跳过连接 "让网络学习残差函数。这一创新使得训练更深层次的网络成为可能,而不会出现梯度消失问题。
  • EfficientNet:该模型系列由谷歌人工智能公司开发,采用复合缩放法统一平衡网络深度、宽度和分辨率。这使得模型既高度精确又高效计算。
  • 视觉变换器(ViT)ViT 将NLP中成功的Transformer架构应用到视觉领域,它将图像视为一连串斑块,并利用自我注意捕捉全局上下文,与 CNN 的局部感受野相比,提供了一种不同的方法。
  • CSPNet(跨阶段部分网络):这种架构在其原始论文中已有描述,它通过整合网络阶段开始和结束时的特征图来提高学习效率,从而增强梯度传播并减少计算瓶颈。它是许多Ultralytics YOLO模型的关键组成部分。

骨干与头颈

在典型的物体检测架构中,模型主要由三部分组成:

  1. 主干网:其作用是从输入图像中进行特征提取,创建不同比例的特征图。
  2. 颈部:该组件位于主干和头部之间。它对骨干层的特征图进行细化和聚合,通常会结合不同层的特征来构建更丰富的表征。一个常见的例子就是特征金字塔网络(FPN)。
  3. 检测头这是网络的最后一部分,它从颈部提取精炼特征并执行实际检测任务。它可以预测图像中物体的边界框、类别标签和置信度分数。

因此,骨干网是建立检测模型其他部分的基础。YOLOv8YOLO11等模型集成了功能强大的骨干网,以确保高质量的特征提取,这对于它们在各种任务中实现最先进的性能至关重要。您可以探索不同的YOLO 模型比较,了解架构选择对性能的影响。

实际应用

骨干网是无数人工智能应用的基础组件:

  1. 自动驾驶 自动驾驶汽车系统在很大程度上依赖于强大的骨干网(如 ResNet 或 EfficientNet 变体)来处理来自摄像头和激光雷达传感器的输入。提取的特征可用于车辆、行人、交通信号灯和车道线的检测和分类,这对安全导航和决策至关重要,Waymo 等公司开发的系统就是如此。
  2. 医疗图像分析医疗人工智能解决方案中,骨干网可用于分析 X 光、CT 或 MRI 等医学扫描。例如,像 DenseNet 这样的骨干网可以从胸部 X 光片中提取特征,帮助检测肺炎迹象,或从 CT 扫描中提取特征,识别潜在肿瘤(《放射学:人工智能》中的相关研究)。这有助于放射科医生进行诊断和制定治疗计划。通过利用功能强大的骨干网,像YOLO11这样的 Ultralytics 模型可适用于肿瘤检测等任务。

您可以使用Ultralytics HUB 等平台,简化管理数据集训练自定义模型的过程,为自己的项目使用功能强大的骨干。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板