了解骨干网在深度学习中的作用,探索 ResNet 和 ViT 等顶级架构,并学习它们在现实世界中的人工智能应用。
骨干网是深度学习模型的核心组件,尤其是在计算机视觉(CV)领域。它是主要的特征提取网络。它的主要工作是获取原始输入数据(如图像),并将其转化为一组高级特征或特征图,用于对象检测、图像分割或分类等下游任务。我们可以将骨干网视为神经网络 (NN)的一部分,它可以学习 "观察 "和理解图像中的基本模式,如边缘、纹理、形状和物体。
骨干网通常是在大规模图像分类数据集(如ImageNet )上预先训练过的深度卷积神经网络(CNN)。这种预训练过程是迁移学习的一种形式,它教会网络识别大量的通用视觉特征库。在为新任务构建模型时,开发人员通常会使用这些预训练骨干,而不是从头开始。这种方法大大减少了训练时间和所需的标注数据量,同时通常还能提高模型性能。骨干网提取的特征随后会传递给网络的 "颈部 "和 "头部",由它们进行进一步处理并生成最终输出。骨干网的选择通常涉及准确性、模型大小和推理延迟之间的权衡,这对实现实时性能至关重要。
骨干网的设计经过多年发展,每一种新架构都能提高效率和性能。一些最有影响力的主干网架构包括
在典型的物体检测架构中,模型主要由三部分组成:
因此,骨干网是建立检测模型其他部分的基础。YOLOv8和YOLO11等模型集成了功能强大的骨干网,以确保高质量的特征提取,这对于它们在各种任务中实现最先进的性能至关重要。您可以探索不同的YOLO 模型比较,了解架构选择对性能的影响。
骨干网是无数人工智能应用的基础组件:
您可以使用Ultralytics HUB 等平台,简化管理数据集和训练自定义模型的过程,为自己的项目使用功能强大的骨干。