深圳Yolo 视觉
深圳
立即加入
词汇表

感受野

探索感受野如何定义神经网络的“视觉”范围。了解Ultralytics YOLO26如何优化空间上下文,以有效detect各种尺寸的物体。

计算机视觉 (CV) 和深度学习领域,感受野是指神经网络 (NN) 中特定神经元“看到”或分析的输入图像的特定区域。从概念上讲,它的功能类似于人眼或相机镜头的视野。它决定了模型在任何给定层可以感知多少空间上下文。随着数据通过卷积神经网络 (CNN),感受野通常会扩展,使系统能够从识别微小的局部细节(如边缘或角点)过渡到理解复杂的全局结构(如整个物体或场景)。

感受野机制

感受野的大小和深度由网络架构决定。在初始层中,神经元通常具有较小的感受野,专注于一小簇像素以捕获细粒度纹理。随着网络加深,诸如 池化层步幅卷积 等操作有效地对特征图进行 下采样。这一过程使得后续神经元能够从原始输入的更大区域聚合信息。

现代架构,包括最先进的 Ultralytics YOLO26,都经过精心设计以平衡这些感受野。如果感受野过窄,模型可能无法识别大型物体,因为它无法感知整个形状。相反,如果感受野过宽而未能保持分辨率,模型可能会遗漏小型物体。为解决此问题,工程师常使用 空洞卷积(也称为扩张卷积)来扩大感受野而不降低空间分辨率,这项技术对于 语义 segment 等高精度任务至关重要。

实际应用

优化感受野对于各种 AI 解决方案 的成功至关重要。

  • 自动驾驶:汽车 AI 中,感知系统必须同时 track 微小细节和大型障碍物。车辆需要较小的感受野来识别远处的交通灯,同时需要较大的感受野来理解附近卡车的轨迹或道路车道的曲率。这种多尺度感知确保了更好的 AI 安全性 和决策制定。
  • 医疗诊断:医疗 AI 应用中,放射科医生依赖模型来发现扫描中的异常。对于识别 脑肿瘤,网络需要较大的感受野来理解大脑的整体对称性和结构。然而,为了 detect 乳腺摄影中的微钙化,模型依赖于具有小感受野的早期层,这些感受野对细微的纹理变化敏感。

区分相关概念

为了全面理解网络设计,区分感受野与类似术语很有帮助:

  • 感受野 vs. : 核(或滤波器)的大小定义了单个卷积操作中滑动窗口(例如3x3)的尺寸。感受野是一种涌现特性,表示影响神经元的总累积输入区域。多个3x3核的堆叠将产生远大于3x3的感受野。
  • 感受野 vs. 特征图: 特征图是层产生的输出体,包含学习到的表示。感受野描述了特征图上单个点与原始输入图像之间的关系。
  • 感受野 vs. 上下文窗口: 尽管这两个术语都指感知数据的范围,“上下文窗口”通常用于自然语言处理 (NLP) 或视频分析中,表示时间或序列范围(例如,token 限制)。感受野严格指网格状数据(图像)中的空间区域。

代码中的实际用法

像新型 YOLO26 这样的最先进模型利用特征金字塔网络 (FPN) 来为所有尺寸的物体保持有效的感受野。以下示例展示了如何加载模型并执行目标检测,自动利用这些内部架构优化。希望使用优化架构训练自己模型的用户可以利用Ultralytics Platform 进行无缝数据集管理和云端训练。

from ultralytics import YOLO

# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")

# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results, detecting both large (bus) and small (person) objects
results[0].show()

让我们一起共建AI的未来!

开启您的机器学习未来之旅