Feature Maps
探索特征图 (Feature Maps) 如何充当 CNN 的眼睛。了解 Ultralytics YOLO26 如何利用这些内部表示来检测模式并驱动计算机视觉。
特征图是当卷积核处理输入图像或神经网络中的前一层时所产生的基本输出。在计算机视觉 (CV)的语境下,这些图充当了数据的内部表示,突显了模型已学会识别的特定模式,例如边缘、纹理或复杂的几何形状。本质上,特征图扮演了卷积神经网络 (CNN)的“眼睛”,将原始像素值转换为有意义的抽象概念,从而促进目标检测和分类等任务。
Link to this section特征图背后的机制#
特征图的创建是由被称为卷积的数学运算驱动的。在此过程中,一个包含可学习参数的小矩阵(称为核或过滤器)会在输入数据上滑动。在每个位置,核都会进行逐元素乘法和求和,从而在输出网格中产生一个单一的值。
- 模式激活:每个过滤器都经过训练以寻找特定的特征。当过滤器在输入中遇到该特征时,特征图中的结果值会很高,这表明出现了强激活。
- 空间层次结构:在深度学习 (DL)架构中,特征图是分层排列的。较早的层生成的图可以检测边缘检测线和曲线等底层细节。更深层则将这些简单的图结合起来,形成复杂对象(如人脸或车辆)的高级表示。
- 维度变化:随着数据在网络中的传播,池化层等操作通常会减小特征图的空间维度(高度和宽度),同时增加深度(通道数)。这个过程通常称为降维,它有助于模型关注特征的存在与否,而不是它们精确的像素位置。
Link to this section实际应用#
特征图是现代 AI 应用的动力室,使系统能够以人类般的理解力解释视觉数据。
- 医疗诊断:在医学图像分析中,模型利用特征图来处理 X 射线或 MRI 扫描。早期的图可能会突出骨骼轮廓,而更深层的图则能识别肿瘤或骨折等异常情况,从而在医疗保健 AI场景中辅助医生进行诊断。
- 自动驾驶导航:自动驾驶汽车在很大程度上依赖于视觉传感器生成的特征图。这些图使车辆的车载计算机能够实时区分车道、行人和交通标志,这对自动驾驶车辆的安全运行至关重要。
Link to this section在 Python 中使用特征图#
虽然特征图是内部结构,但在设计架构时了解其维度至关重要。以下 PyTorch 示例展示了单个卷积层如何将输入图像转换为特征图。
import torch
import torch.nn as nn
# Define a convolution layer: 1 input channel, 1 output filter, 3x3 kernel
conv_layer = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=3, bias=False)
# Create a random dummy image (Batch Size=1, Channels=1, Height=5, Width=5)
input_image = torch.randn(1, 1, 5, 5)
# Pass the image through the layer to generate the feature map
feature_map = conv_layer(input_image)
print(f"Input shape: {input_image.shape}")
# The output shape will be smaller (3x3) due to the kernel size and no padding
print(f"Feature Map shape: {feature_map.shape}")Link to this section区分相关概念#
区分特征图与其他类似术语有助于避免在模型训练期间产生困惑:
- 特征图 vs. 过滤器:过滤器(或核)是用于扫描图像的工具;它包含模型权重。特征图是该扫描的结果。你可以把过滤器想象成“镜头”,而把特征图想象成通过该镜头拍摄的“图像”。
- 特征图 vs. 嵌入:虽然两者都表示数据,但特征图通常保留适合语义分割的空间结构(高度和宽度)。相比之下,嵌入通常是扁平的、一维的向量,它们捕获了语义含义但丢弃了空间布局,常用于相似度搜索任务。
- 特征图 vs. 激活:激活函数(如 ReLU)被应用于特征图内的值以引入非线性。该图在数学运算前后均存在。
Link to this section与 Ultralytics 模型的相关性#
在像 YOLO26 这样的先进架构中,特征图在模型的“骨干 (backbone)”和“头部 (head)”中发挥着核心作用。骨干网络提取不同尺度下的特征(特征金字塔),确保模型能够有效检测小型和大型对象。使用 Ultralytics Platform 进行训练的用户可以可视化这些模型的性能,并通过准确率和召回率等指标间接观察底层特征图的功效。优化这些特征图涉及在标注数据集上进行大规模训练,通常利用特征提取等技术将知识从预训练模型迁移到新任务中。






