了解特征金字塔网络 (FPN) 如何在 YOLO11 和现代 CV 系统中实现多尺度物体检测,提高大小物体的检测精度。
特征金字塔网络(FPN)是深度学习模型(尤其是物体检测架构)中的一个组件,旨在改进各种尺度物体的检测。在任何给定的图像中,物体的大小和与摄像头的距离都会影响物体的大小。FPN 通过有效创建多尺度的特征表示来应对这一挑战,使模型能够同时高精度地识别远处的小汽车和近处的大卡车。它是网络中主要特征提取器和最终预测组件之间的桥梁或 "颈部"。
FPN 的工作原理是将低分辨率、语义强的特征与高分辨率、语义弱的特征相结合。这一过程通常是通过具有两条路径和横向联系的结构来实现的。
在典型的物体检测模型中,结构分为骨干、颈部和头部。FPN 是颈部组件的常用选择。它的主要作用是汇总骨干提取的特征,然后再用于最终的检测任务。通过提供丰富的多尺度特征表示,FPN 使YOLO11等模型能够在各种物体尺寸范围内稳健运行。这种方法比分别处理多分辨率图像的计算效率更高,因为它可以重复使用骨干网单次前向传递中计算出的特征。许多最先进的模型都利用了这一概念,这在各种YOLO 模型比较中都可以看到。
FPN 是许多现代计算机视觉 (CV)应用中不可或缺的部分,在这些应用中,多尺度物体检测至关重要。
虽然 FPN 标志着一项重大进步,但更新的架构也发展了这一概念。谷歌研究院在 EfficientDet 论文中提出的双向特征金字塔网络(BiFPN)就是一个显著的例子。与 FPN 简单的自上而下路径不同,BiFPN 引入了双向连接(自上而下和自下而上),并使用加权特征融合,使网络能够学习不同输入特征的重要性。这通常会带来更好的性能和效率,在EfficientDet 与 YOLO11 的比较中就凸显了这一点。FPN 是一个基础概念,而 BiFPN 则代表了一种更先进、更优化的多尺度特征融合方法。