了解特征金字塔网络 (FPN) 如何在YOLO11 和现代 CV 系统中实现多尺度物体检测,提高大小物体的检测精度。
特征金字塔网络(FPN)是现代网络技术的基本架构。 计算机视觉(CV)设计用于 用于高精度地detect 不同尺度的物体。传统的 深度学习(DL)模型往往 传统的深度学习(DL)模型往往难以识别小物体,因为它们依赖于空间分辨率丧失的深层。FPN 的金字塔结构。 特征图将 低分辨率、语义性强的特征与高分辨率、空间细节丰富的特征相结合。这种设计是 关键的 "颈部"。 物体检测架构中的关键 "颈部在许多物体检测架构中,这种设计起到了关键的 "颈部 "作用。 骨干层-连接到最终预测层,即 检测头.通过在不同层级之间有效共享信息,FPN 可实现以下模型 YOLO11等模型能够准确识别单张图像中的微小 远处的细节和单幅图像中突出的大型主体。
特征金字塔网络的核心创新在于它如何通过三个不同的阶段来处理视觉信息。 阶段来处理视觉信息。这种结构使网络能够在多个分辨率下保持图像的丰富表现形式 而不会产生巨大的计算成本。
在现实世界中,物体的大小因其与摄像机的距离不同而大相径庭。A 标准分类器可能很容易发现占满整个画面的汽车,但却无法detect 背景中的行人。FPN 通过将预测任务分配到金字塔的不同层次来解决这个问题。低分辨率的 而小物体则在高分辨率的融合特征图上检测。这种 这种能力对于实现高 精确度和 回忆在不同环境中的准确性和召回率、 将配备 FPN 的机型与老式的单尺度探测器区分开来。
处理多尺度数据的能力使 FPN 成为各行各业不可或缺的工具,这些行业依赖于 人工智能(AI).
尽管 FPN 为特征提取带来了革命性的变化,但更新的架构已经完善了这一概念。一个值得注意的演变是 双向特征金字塔网络(BiFPN)。 Google 研究院在 EfficientDet 架构中引入的。与 标准 FPN 单向流动(自上而下)不同,BiFPN 增加了自下而上的路径,并为每个连接学习特定的权重。 连接,优先考虑更重要的特征。不过,标准 FPN 设计及其变体仍然是 等高性能模型的基础。 YOLO11等高性能机型的基础,有效地平衡了速度和精度。 实时推理 任务。
现代库在内部处理 FPN 的复杂性。下面的示例演示了使用 Ultralytics YOLO软件包 先进的特征金字塔结构,可无缝detect 各种大小的物体。
from ultralytics import YOLO
# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()