Identity Mapping
探索深度学习中的恒等映射。了解跳跃连接如何通过防止梯度消失来为像 Ultralytics YOLO26 这样的神经网络提供支持。
在数学和线性代数中,恒等映射或单位矩阵是一个返回与输入值完全相同结果的函数。在人工智能 (AI)和深度学习领域,恒等映射是指一种特定的架构技术,用于在不进行任何非线性变换的情况下,将输入数据直接传递到卷积神经网络 (CNN) 的后续层。这一概念随着 2015 年残差网络 (ResNet) 的引入而广为人知,它彻底改变了深度计算机视觉 (CV) 模型的构建和训练方式。
Link to this section恒等映射的工作原理#
深度神经网络经常会遇到梯度消失问题。在反向传播过程中,用于更新网络权重的误差信号在向后穿过各层时会呈指数级减小,从而阻碍早期层进行有效学习。恒等映射通过创建“跳跃连接”或“快捷连接”解决了这个问题。
与其强迫顺序层去学习一个全新的、无参考的映射,不如将它们设计为学习残差函数。在数学上,如果一个块的输入为 x,则该层学习一个变换 F(x)。恒等映射将原始输入 x 直接加到该变换的输出上,从而得到最终输出 F(x) + x。这确保了即使在极深的网络中,梯度也能不受阻碍地直接通过模型骨干网络流动。像谷歌 DeepMind 和 OpenAI 这样久负盛名的 AI 研究机构经常利用这些架构快捷方式来稳定超大规模基础模型的训练。
Link to this section恒等映射与身份保持的区别#
区分恒等映射与名称相似的身份保持至关重要。
虽然恒等映射是神经网络的一种结构化编码特性,旨在优化机器学习 (ML) 的训练流程,但身份保持是一个不同的计算机视觉任务。身份保持专注于在目标跟踪的视频帧之间或生成式 AI 工作流所生成的图像中,维持特定人物或对象的视觉一致性。
Link to this section实际应用#
恒等映射是当今生产环境中许多高精度模型的基础构建块:
- 高级目标检测:现代实时架构,包括最新的 Ultralytics YOLO26,在其特征提取层中使用了包含恒等映射的高级残差块。这使得它们能够在自动驾驶等复杂环境中进行高速、精确的检测,而不会随着网络深度的增加而降低性能。
- 图像分类模型:最先进的视觉架构(在 arXiv 和 IEEE Xplore Digital Library 等学术资源库中有详尽文档)依靠恒等映射来成功训练具有数百层的模型。像 TensorFlow 这样高级的框架利用这些快捷方式从海量数据集中提取极其复杂的层次化特征。
Link to this section在 PyTorch 中实现恒等映射#
构建自定义神经网络时,像 PyTorch 这样的深度学习框架提供了原生工具,可以轻松实现这些快捷方式。你可以显式使用 PyTorch nn.Identity 模块,或者直接在你的 nn.Module 前向传递中应用数学加法。
以下代码片段演示了一个使用恒等映射的基本残差块。请注意,利用基于云的 Ultralytics Platform 进行数据集管理和模型训练的开发者,会自动在底层受益于这些高度优化的架构结构。
import torch.nn as nn
class ResidualBlock(nn.Module):
def __init__(self, channels):
super().__init__()
# A simple convolutional layer for feature extraction
self.conv = nn.Conv2d(channels, channels, kernel_size=3, padding=1)
# Explicit identity mapping module
self.identity = nn.Identity()
def forward(self, x):
# The block output is the sum of the learned features and the identity map
return self.conv(x) + self.identity(x)





