Saliency Maps

探索显著性图如何解释神经网络的决策。学习如何可视化模型预测，并使用 Ultralytics Platform 构建透明的 AI。

显著性图（Saliency maps）是可解释 AI (XAI) 中使用的一种强大的可视化工具，用于阐明复杂神经网络的内部决策过程。它们本质上充当热力图，突出显示对模型预测影响最大的输入图像的特定像素或区域。通过揭示模型“在看哪里”，显著性图帮助研究人员和工程师解释深度卷积神经网络 (CNN) 的行为，确保系统学习到正确的特征，而不是依赖数据集伪影或背景噪声。你可以在 Wikipedia 显著性图页面上阅读有关此过程数学基础的更多信息。

显著性图的工作原理#

生成显著性图的基础方法严重依赖于跨网络层的反向传播和梯度。该算法不使用这些梯度在模型训练期间更新模型权重，而是计算预测类别得分相对于输入图像本身的梯度。正如 PyTorch 自动求导文档中所解释的那样，取这些梯度在颜色通道上的绝对最大值会生成一张图，其中高值对应于如果修改则会显著改变输出得分的像素。现代方法甚至将其扩展到生成式 AI，从而实现用于跟踪噪声梯度的扩散模型显著性图。

实际应用#

由于它们为模型的逻辑提供了直接的视觉验证，显著性图在具有挑战性的计算机视觉场景中至关重要：

医学诊断：在医疗保健领域的 AI 中，确认算法是基于真实的生理组织异常（而不是扫描仪的水印）来检测肿瘤，对患者安全至关重要。正如最近关于医学影像中 XAI 一致性的研究中所详述的那样，显著性图提供了这种视觉证据。
自动导航：对于预测转向角或识别停止标志的自动驾驶汽车，分析显著性图有助于工程师通过验证模型是否正确聚焦于道路而不是被不相关的风景分散注意力来调试故障。

区分相关术语#

强烈建议将显著性图与 AI 词汇表中的其他概念区分开来，以了解它们在深度学习 (DL) 中的特定作用：

显著性图与类激活映射 (CAM)：基本的显著性图在原始像素级别计算重要性，而诸如 Grad-CAM 的CAM 技术则在网络最后一个卷积层内的特征图高级别上分析重要性。更新的基准继续完善我们评估视觉解释以及跨数据集的 CAM 的方式。
显著性图与机械可解释性：显著性映射是一种事后技术，它只显示模型在哪里看。相比之下，机械可解释性更深入地反向工程特定神经元或算法电路是如何以及为什么计算出该焦点的。
显著性图与可解释 AI (XAI)：XAI 是致力于使 AI 透明化的广阔底层学科，而显著性图只是该工具包中的一个特定工具，通常被强调为关键的谷歌云可解释性技术。该领域正在快速发展，从原始像素转向映射概念数据的强大的人类对齐的解释分类法。

通过代码提取显著性#

可以使用诸如 PyTorch 等深度学习框架以编程方式了解神经网络如何归因重要性。以下代码片段演示了从预训练的图像分类模型中提取基本显著性图（基于梯度的归因）背后的基础数学。

import torch
from torchvision.models import resnet18

# Load a pre-trained model in evaluation mode
model = resnet18(weights="DEFAULT").eval()

# Create a dummy image tensor and explicitly require gradients
input_image = torch.randn(1, 3, 224, 224, requires_grad=True)

# Forward pass: get predictions for the input image
output = model(input_image)

# Backward pass: compute gradients for the highest scoring class
output[0, output.argmax()].backward()

# Saliency map is the maximum absolute gradient across the 3 color channels
saliency_map, _ = torch.max(input_image.grad.data.abs(), dim=1)
print(f"Generated Saliency Map Shape: {saliency_map.shape}")

对于涉及目标检测或绘制边界框的高级工作流，诸如Ultralytics Platform之类的工具可以帮助开发者无缝注释数据集、监控实验，并可视化来自诸如最先进的 Ultralytics YOLO26 等模型的输出。通过持续评估视觉推理以及模型部署，团队可以构建和扩展更加值得信赖和透明的 AI 系统。