术语表

卷积神经网络(CNN)

了解卷积神经网络 (CNN) 如何彻底改变计算机视觉,为医疗保健、自动驾驶汽车等领域的人工智能提供动力。

卷积神经网络(CNN)是一种专门的神经网络(NN),对于处理具有网格状拓扑结构的数据如图像非常有效。受人类视觉皮层的启发,卷积神经网络能自动、自适应地从输入数据中学习空间层次特征。这使它们成为大多数现代计算机视觉(CV)任务的基础架构,在从图像分类到物体检测等各个方面都取得了最先进的成果。

Cnn 如何工作

与标准的神经网络(一层中的每个神经元都与下一层中的每个神经元相连)不同,CNN 使用一种特殊的数学运算,称为卷积。这样,网络就能在局部感受野中学习特征,保留像素之间的空间关系。

典型的 CNN 架构由几个关键层组成:

  1. 卷积层:这是核心构件,滤波器或内核在输入图像上滑动,生成特征图。这些图可以突出边缘、角落和纹理等模式。这些滤波器的大小及其检测到的模式是在模型训练过程中学习到的。
  2. 激活层:每次卷积后,都会应用ReLU激活函数引入非线性,使模型能够学习更复杂的模式。
  3. 池化(下采样)层:该层减少了特征图的空间维度(宽度和高度),从而降低了计算负荷,并有助于使检测到的特征对位置和方向的变化更加稳健。有关该主题的一篇经典论文是《利用深度卷积神经网络进行图像网络分类》(ImageNet Classification with Deep Convolutional Neural Networks)。
  4. 全连接层:经过几个卷积层和池化层后,高级特征被扁平化并传递到全连接层,该层根据学习到的特征进行分类。

Cnn 与其他架构的比较

虽然 CNN 是深度学习模型的一种,但它们与其他架构有很大不同。

  • 神经网络(NN):标准的神经网络将输入数据视为平面向量,丢失了所有空间信息。CNN 则保留了这些信息,因此非常适合图像分析。
  • 视觉转换器(ViTs):与 CNN 不同,CNN 对空间位置有强烈的归纳偏差、 ViTs 将图像视为一连串补丁,并使用 自我关注 学习全局关系的机制。ViT 通常需要更多的数据来训练,但在长程背景非常重要的任务中却能表现出色。许多现代模型,如 RT-DETR使用混合方法,将 CNN backbone 使用基于变压器的 detection head.

实际应用

CNN 是无数实际应用背后的驱动力:

工具和框架

强大的工具和框架为开发和部署 CNN 提供了支持:

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板