探索 Backbones 在深度学习中的作用,探索 ResNet 和 ViT 等顶级架构,并了解它们在现实世界中的 AI 应用。
骨干网络是深度学习架构中基础的特征提取组件,作为核心引擎将原始数据转化为有意义的表示形式。在计算机视觉领域,骨干网络通常由神经网络中的多层结构组成,通过处理输入图像识别分层模式——这些模式涵盖从边缘、纹理等简单低级特征到形状、物体等复杂高级概念。 骨干网络的输出(通常称为特征图)将作为下游组件的输入,这些组件执行分类或检测等特定任务。
骨干网络的主要功能是在做出任何具体决策之前,"观察"并理解图像的视觉内容。它如同通用翻译器,将像素值转化为浓缩且信息丰富的格式。大多数现代骨干网络依赖卷积神经网络(CNN)或视觉变换器(ViT),并常在海量数据集(如ImageNet)上进行预训练。 ImageNet。这种预训练过程作为迁移学习的核心环节,使模型能够复用先前习得的视觉特征,大幅减少特定应用场景下训练新模型所需的数据量与时间成本。
例如,Ultralytics ,其架构包含一个高度优化的骨干网络,能够高效提取多尺度特征。这使得网络后续部分能够完全专注于目标定位和类别概率分配,而无需从头开始重新学习如何识别基本视觉结构。
要全面理解目标检测模型的架构,必须区分骨干网络与另外两个主要组件:颈部和头部。
骨干网络是众多工业与科学人工智能应用背后默默无闻的功臣。其对视觉数据的泛化能力使其能够适应不同领域的需求。
尖端架构如 YOLO11 和前沿的 YOLO26等先进架构默认集成了强大的骨干网络。这些组件经过精心设计,可在各类硬件平台上实现最优推理延迟,涵盖从边缘设备到高性能GPU的广泛场景。
以下Python 演示了如何使用
ultralytics 该设置在推理过程中自动利用主干网络进行特征提取。
from ultralytics import YOLO
# Load a YOLO26 model, which includes a pre-trained CSP backbone
model = YOLO("yolo26n.pt")
# Perform inference on an image
# The backbone extracts features, which are then used for detection
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting detection
results[0].show()
通过利用预训练的骨干网络,开发者可Ultralytics 对其自定义数据集进行微调。这种方法能快速开发专用模型——例如物流中的包裹检测模型——而无需投入从零开始训练深度神经网络所需的海量计算资源。