深圳尤洛视觉
深圳
立即加入
词汇表

卷积神经网络 (CNN)

了解卷积神经网络 (CNN) 如何革新计算机视觉,为医疗保健、自动驾驶汽车等领域的 AI 提供强大支持。

卷积神经网络 (CNN) 是一种专门类型的神经网络 (NN),对于处理具有网格状拓扑的数据(例如图像)非常有效。受人类视觉皮层的启发,CNN 自动且自适应地从输入数据中学习特征的空间层次结构。这使得它们成为大多数现代计算机视觉 (CV)任务的基础架构,在从图像分类到目标检测的所有方面都取得了最先进的结果。

卷积神经网络 (CNN) 如何工作

与标准神经网络(其中一层中的每个神经元都连接到下一层中的每个神经元)不同,CNN 使用一种称为卷积的特殊数学运算。这使得网络能够学习局部感受野中的特征,从而保留像素之间的空间关系。

典型的 CNN 架构由几个关键层组成:

  1. 卷积层: 这是核心构建块,其中过滤器(或内核)在输入图像上滑动以生成 特征图。 这些图突出显示了边缘、角和纹理等模式。 这些过滤器的大小以及它们检测到的模式在 模型训练 期间学习。
  2. 激活层:每次卷积后,都会应用激活函数(如ReLU)来引入非线性,从而使模型能够学习更复杂的模式。
  3. 池化(降采样)层:该层减少了特征图的空间维度(宽度和高度),从而降低了计算负载,并有助于使检测到的特征对位置和方向的变化更加鲁棒。关于该主题的经典论文是 ImageNet Classification with Deep Convolutional Neural Networks
  4. 全连接层: 在经过几个卷积层和池化层之后,高级特征被展平并传递到全连接层,该层基于学习到的特征执行分类。

CNN 与其他架构

虽然 CNN 是一种 深度学习 模型,但它们与其它架构有显著差异。

  • 神经网络 (NN):标准 NN 将输入数据视为平面向量,从而丢失所有空间信息。CNN 保留了这些信息,使其成为图像分析的理想选择。
  • 视觉 Transformer (ViT):与 CNN 不同,CNN 在空间局部性方面具有很强的归纳偏置, ViT 将图像视为图块序列并使用 自注意力机制 机制来学习全局关系。 ViT 通常需要更多数据进行训练,但在长程上下文很重要的任务中表现出色。 许多现代模型,如 RT-DETR,使用混合方法,结合 CNN backbone 基于 Transformer 的 detection head.

实际应用

CNN 是无数现实世界应用背后的驱动力:

工具和框架

强大的工具和框架为开发和部署CNN提供支持:

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板