词汇表

卷积神经网络 (CNN)

了解卷积神经网络 (CNN) 如何革新计算机视觉，为医疗保健、自动驾驶汽车等领域的 AI 提供强大支持。

卷积神经网络 (CNN) 是一种专门类型的神经网络 (NN)，对于处理具有网格状拓扑的数据（例如图像）非常有效。受人类视觉皮层的启发，CNN 自动且自适应地从输入数据中学习特征的空间层次结构。这使得它们成为大多数现代计算机视觉 (CV)任务的基础架构，在从图像分类到目标检测的所有方面都取得了最先进的结果。

卷积神经网络 (CNN) 如何工作

与标准神经网络（其中一层中的每个神经元都连接到下一层中的每个神经元）不同，CNN 使用一种称为卷积的特殊数学运算。这使得网络能够学习局部感受野中的特征，从而保留像素之间的空间关系。

典型的 CNN 架构由几个关键层组成：

卷积层：这是核心构建块，其中过滤器（或内核）在输入图像上滑动以生成特征图。这些图突出显示了边缘、角和纹理等模式。这些过滤器的大小以及它们检测到的模式在模型训练期间学习。
激活层：每次卷积后，都会应用激活函数（如ReLU）来引入非线性，从而使模型能够学习更复杂的模式。
池化（降采样）层：该层减少了特征图的空间维度（宽度和高度），从而降低了计算负载，并有助于使检测到的特征对位置和方向的变化更加鲁棒。关于该主题的经典论文是 ImageNet Classification with Deep Convolutional Neural Networks。
全连接层: 在经过几个卷积层和池化层之后，高级特征被展平并传递到全连接层，该层基于学习到的特征执行分类。

CNN 与其他架构

虽然 CNN 是一种深度学习模型，但它们与其它架构有显著差异。

神经网络 (NN)：标准 NN 将输入数据视为平面向量，从而丢失所有空间信息。CNN 保留了这些信息，使其成为图像分析的理想选择。
视觉 Transformer (ViT)：与 CNN 不同，CNN 在空间局部性方面具有很强的归纳偏置， ViT 将图像视为图块序列并使用自注意力机制机制来学习全局关系。 ViT 通常需要更多数据进行训练，但在长程上下文很重要的任务中表现出色。许多现代模型，如 RT-DETR，使用混合方法，结合 CNN backbone 基于 Transformer 的 detection head.

实际应用

CNN 是无数现实世界应用背后的驱动力：

目标检测: Ultralytics YOLO 系列的模型，例如 YOLOv8 和 YOLO11，利用 CNN 作为骨干网络，以惊人的速度和准确性识别和定位图像及视频中的对象。这项技术对于从汽车人工智能系统到人工智能驱动的库存管理等各个领域都至关重要。
医学图像分析: 在医疗保健领域，卷积神经网络（CNN）通过分析医学扫描图像（X射线、核磁共振、CT）来辅助放射科医生检测肿瘤、骨折和其他异常。正如美国国立卫生研究院（NIH）等机构的研究强调的那样，这种应用有助于提高诊断速度和一致性。您可以浏览Ultralytics医学图像分析以获取更多信息。
图像分割: 对于需要像素级理解的任务，例如需要区分道路和行人的自动驾驶汽车，基于 CNN 的架构（如 U-Net）被广泛用于图像分割。

工具和框架

强大的工具和框架为开发和部署CNN提供支持：

库: 像PyTorch（参见PyTorch官方网站）和TensorFlow这样的流行库提供了用于构建和训练CNN的高级API。像Keras这样的高级API进一步简化了开发。
平台：像 Ultralytics HUB 这样的平台简化了整个过程，从管理数据集到训练模型和部署它们。有效的模型创建通常需要仔细的超参数调整，并受益于全面的模型训练技巧。为了获得优化的性能，您可以探索像 OpenVINO 和 TensorRT 这样的集成。

卷积神经网络 (CNN)

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

卷积神经网络 (CNN) 如何工作

CNN 与其他架构

实际应用

工具和框架

阅读更多此类别的内容

Ultralytics 在 2025 年 PyTorch 大会上的主要亮点

利用自我监督学习对图像进行去噪处理

视觉人工智能为驾驶员注意力监控系统提供动力

加入 Ultralytics 社区