敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

特征金字塔网络(FPN)

了解特征金字塔网络 (FPN) 如何在 YOLO11 和现代 CV 系统中实现多尺度物体检测,提高大小物体的检测精度。

特征金字塔网络(FPN)是深度学习模型(尤其是物体检测架构)中的一个组件,旨在改进各种尺度物体的检测。在任何给定的图像中,物体的大小和与摄像头的距离都会影响物体的大小。FPN 通过有效创建多尺度的特征表示来应对这一挑战,使模型能够同时高精度地识别远处的小汽车和近处的大卡车。它是网络中主要特征提取器和最终预测组件之间的桥梁或 "颈部"。

功能金字塔网络如何运作

FPN 的工作原理是将低分辨率、语义强的特征与高分辨率、语义弱的特征相结合。这一过程通常是通过具有两条路径和横向联系的结构来实现的。

  1. 自下而上路径:这是卷积神经网络(CNN)的标准前向通路,是模型的主干。当图像通过连续的层时,生成的特征图在空间大小上会减小,但在语义深度上会增加,这意味着它们能捕捉到更多的抽象概念。
  2. 自上而下路径:然后,网络从最深层获取特征图(该图虽小,但信息丰富),并开始对其进行上采样。
  3. 横向联系:当自上而下的路径重建较大的特征图时,它会将其与来自自下而上路径的相应特征图合并。这种融合使上层取样层更丰富,更精细,更局部化。融合的结果是形成一个 "金字塔 "式的特征图,每个特征图都具有丰富的语义和空间细节,然后被输送到检测头进行预测。最初的FPN 研究论文对这一过程进行了详细的技术解释。

FPN 在物体检测中的作用

在典型的物体检测模型中,结构分为骨干、颈部和头部。FPN 是颈部组件的常用选择。它的主要作用是汇总骨干提取的特征,然后再用于最终的检测任务。通过提供丰富的多尺度特征表示,FPN 使YOLO11等模型能够在各种物体尺寸范围内稳健运行。这种方法比分别处理多分辨率图像的计算效率更高,因为它可以重复使用骨干网单次前向传递中计算出的特征。许多最先进的模型都利用了这一概念,这在各种YOLO 模型比较中都可以看到。

实际应用

FPN 是许多现代计算机视觉 (CV)应用中不可或缺的部分,在这些应用中,多尺度物体检测至关重要。

  • 自动驾驶汽车自动驾驶汽车必须检测不同距离的行人、车辆、交通标志和车道标记。卡内基梅隆大学等机构提供的详细资料显示,FPN 可帮助汽车的感知系统在同一帧内识别远处的行人和近处的汽车,这对安全导航至关重要。
  • 医学图像分析在放射学领域,FPN 可帮助分析医学扫描,检测不同大小的异常,如小病变和大肿瘤。正如美国国立卫生研究院(NIH)发表的研究报告中讨论的那样,这种多尺度能力使病理学和肿瘤学等领域的自动诊断更加全面和准确。

FPN 与 BiFPN

虽然 FPN 标志着一项重大进步,但更新的架构也发展了这一概念。谷歌研究院在 EfficientDet 论文中提出的双向特征金字塔网络(BiFPN)就是一个显著的例子。与 FPN 简单的自上而下路径不同,BiFPN 引入了双向连接(自上而下和自下而上),并使用加权特征融合,使网络能够学习不同输入特征的重要性。这通常会带来更好的性能和效率,在EfficientDet 与 YOLO11 的比较中就凸显了这一点。FPN 是一个基础概念,而 BiFPN 则代表了一种更先进、更优化的多尺度特征融合方法。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板