探索感受野如何定义神经网络的“视觉”范围。了解Ultralytics YOLO26如何优化空间上下文,以有效detect各种尺寸的物体。
在计算机视觉 (CV) 和深度学习领域,感受野是指神经网络 (NN) 中特定神经元“看到”或分析的输入图像的特定区域。从概念上讲,它的功能类似于人眼或相机镜头的视野。它决定了模型在任何给定层可以感知多少空间上下文。随着数据通过卷积神经网络 (CNN),感受野通常会扩展,使系统能够从识别微小的局部细节(如边缘或角点)过渡到理解复杂的全局结构(如整个物体或场景)。
感受野的大小和深度由网络架构决定。在初始层中,神经元通常具有较小的感受野,专注于一小簇像素以捕获细粒度纹理。随着网络加深,诸如 池化层 和 步幅卷积 等操作有效地对特征图进行 下采样。这一过程使得后续神经元能够从原始输入的更大区域聚合信息。
现代架构,包括最先进的 Ultralytics YOLO26,都经过精心设计以平衡这些感受野。如果感受野过窄,模型可能无法识别大型物体,因为它无法感知整个形状。相反,如果感受野过宽而未能保持分辨率,模型可能会遗漏小型物体。为解决此问题,工程师常使用 空洞卷积(也称为扩张卷积)来扩大感受野而不降低空间分辨率,这项技术对于 语义 segment 等高精度任务至关重要。
优化感受野对于各种 AI 解决方案 的成功至关重要。
为了全面理解网络设计,区分感受野与类似术语很有帮助:
像新型 YOLO26 这样的最先进模型利用特征金字塔网络 (FPN) 来为所有尺寸的物体保持有效的感受野。以下示例展示了如何加载模型并执行目标检测,自动利用这些内部架构优化。希望使用优化架构训练自己模型的用户可以利用Ultralytics Platform 进行无缝数据集管理和云端训练。
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()

开启您的机器学习未来之旅