Receptive Field
探索感受野如何定义神经网络的观测范围。了解 Ultralytics YOLO26 如何优化空间上下文,从而有效地检测各种尺寸的对象。
在 计算机视觉 (CV) 和深度学习领域,感受野是指 神经网络 (NN) 中的特定神经元所“看到”或分析的输入图像的特定区域。从概念上讲,它的功能类似于人眼或相机镜头的视野。它决定了模型在任意给定层所能感知的空间上下文大小。随着数据通过 卷积神经网络 (CNN),感受野通常会扩大,使系统能够从识别微小的局部细节(如边缘或拐角)过渡到理解复杂的全局结构(如整个物体或场景)。
Link to this section感受野的机制#
感受野的大小和深度由网络的架构决定。在初始层中,神经元通常具有较小的感受野,专注于一小簇像素以捕捉细粒度的纹理。随着网络加深,池化层 和 步长卷积 等操作会有效地对特征图进行 下采样。这一过程使后续的神经元能够聚合来自原始输入中更大范围的信息。
现代架构,包括最先进的 Ultralytics YOLO26,旨在精细地平衡这些领域。如果感受野太窄,模型可能无法识别大型物体,因为它无法感知整个形状。相反,如果感受野过宽而没有保持分辨率,模型可能会遗漏小物体的细节。为了解决这个问题,工程师通常使用 空洞卷积(也称为 atrous 卷积)在不降低空间分辨率的情况下扩大感受野,这对于像 语义分割 这样需要高精度的任务至关重要。
Link to this section实际应用#
优化感受野对于各种 AI 解决方案 的成功至关重要。
- 自动驾驶: 在 汽车 AI 中,感知系统必须同时跟踪微小细节和大型障碍物。车辆需要较小的感受野来识别远处的交通信号灯,同时需要较大的感受野来理解附近卡车的轨迹或道路车道的弯曲。这种多尺度感知可确保更好的 AI 安全 和决策能力。
- 医学诊断: 在应用 医疗 AI 时,放射科医生依赖模型来发现扫描中的异常。对于识别 脑肿瘤,网络需要较大的感受野来理解大脑的整体对称性和结构。然而,为了检测乳房 X 光检查中的微钙化,模型则依赖于具有对细微纹理变化敏感的小感受野的早期层。
Link to this section区分相关概念#
为了全面了解网络设计,区分感受野与类似术语很有帮助:
- 感受野 vs. 内核: 内核(或过滤器)大小定义了单个 卷积 操作的滑动窗口尺寸(例如 3x3)。感受野是一个涌现属性,代表影响神经元的总累积输入区域。多个 3x3 内核的堆叠将导致比 3x3 大得多的感受野。
- 感受野 vs. 特征图: 特征图是由层生成的输出体积,其中包含学习到的表示。感受野描述了该特征图上的单个点与原始输入图像之间的关系。
- 感受野 vs. 上下文窗口: 虽然这两个术语都指代感知数据的范围,“上下文窗口”通常用于 自然语言处理 (NLP) 或视频分析中,以表示时间或顺序跨度(例如标记限制)。感受野则严格指代网格状数据(图像)中的空间区域。
Link to this section代码中的实际用法#
像较新的 YOLO26 这样最先进的模型利用特征金字塔网络 (FPN) 来为各种尺寸的物体保持有效的感受野。以下示例展示了如何加载模型并执行 目标检测,自动利用这些内部架构优化。希望使用优化架构训练自己模型的用户可以利用 Ultralytics Platform 进行无缝的数据集管理和云端训练。
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()





