深圳Yolo 视觉
深圳
立即加入
词汇表

感受野

探索感受野如何定义神经网络的感知范围。了解Ultralytics 如何优化空间上下文,实现对各种尺寸detect 有效detect 。

计算机视觉(CV)与深度学习领域,感受野指神经网络(NN)中特定神经元所"感知"或分析的输入图像特定区域。 概念上,其功能类似于人眼或相机镜头的视野范围。它决定了模型在任意特定层级能感知多少空间上下文。当数据在卷积神经网络(CNN)中传递时,感受野通常会逐渐扩展,使系统能够从识别微小局部细节(如边缘或拐角)过渡到理解复杂全局结构(如完整物体或场景)。

感受野的机制

感受野的大小和深度由网络架构决定。 在初始层中,神经元 通常具有较小的感受野,聚焦于微小像素簇以捕捉精细纹理。随着 网络深度增加,诸如 池化层和 步长卷积等操作会有效 特征图进行下采样。该过程 使后续神经元能够整合来自原始输入更大区域的信息。

现代架构(Ultralytics )都经过精心设计以平衡这些感知区域。若感知区域过窄,模型可能因无法捕捉完整形状而无法识别大型物体。 反之,若受容野过度扩展却未保持分辨率,模型则可能遗漏微小物体。为解决此问题,工程师常采用膨胀卷积(又称空洞卷积)技术,在不降低空间分辨率的前提下扩展受容野——这项技术对语义分割等高精度任务至关重要。

实际应用

优化感受野对各类人工智能解决方案的成功至关重要。

  • 自动驾驶: 汽车人工智能领域,感知系统必须 同时track 与大型障碍物。车辆需要小范围感知区域来识别远处的 交通信号灯,同时需要大范围感知区域来理解附近卡车的行驶轨迹 或道路车道的弯曲度。这种多尺度感知确保了更优的 人工智能安全性和决策能力
  • 医学诊断: 在医疗领域应用人工智能时,放射科医生依赖模型来识别扫描图像中的异常。对于脑肿瘤的识别,神经网络需要较大的感受野来理解大脑的整体对称性和结构。然而,在乳腺X光摄影中detect 时,模型则依赖早期层的小感受野,这些层对细微的纹理变化具有敏感性。

区分相关概念

要全面理解网络设计,区分感受野与类似术语很有帮助:

  • 感受野与卷积核 卷积核(或滤波器)尺寸定义了单次卷积操作中滑动窗口的维度(例如3x3)感受野是一种涌现属性,代表影响神经元的总累积输入区域。多个3x3卷积核的叠加将形成远大于3x3的感受野。
  • 感受野与特征图 特征图是由某一层产生的输出体积,包含已学习的表示感受野描述特征图上单个点与原始输入图像之间的关系。
  • 感受野与上下文窗口 虽然两者均指感知数据的范围,但"上下文窗口"通常用于 自然语言处理(NLP) 或视频分析中,表示时间或序列跨度(如令牌限制)。感受野则严格指代 网格化数据(图像)中的空间区域。

代码中的实际应用

先进的模型(如新版YOLO26)采用特征金字塔网络(FPN)技术,确保对所有尺寸目标保持有效的感受野。下例演示了如何加载模型并执行目标检测,自动利用这些内部架构优化。用户若需训练采用优化架构的自定义模型,可Ultralytics 实现无缝的数据集管理和云端训练。

from ultralytics import YOLO

# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")

# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results, detecting both large (bus) and small (person) objects
results[0].show()

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入