Convolutional Neural Network (CNN)
探索卷积神经网络 (CNN) 如何驱动现代计算机视觉。了解层级、应用,以及如何运行 Ultralytics YOLO26 进行实时 AI 应用。
卷积神经网络 (CNN) 是一种专门的深度学习架构,旨在处理具有网格状拓扑结构的数据,其中最显著的就是数字图像。受视觉皮层生物结构的启发,CNN 具有独特的保持输入数据空间关系的能力。与将图像展平为长数字列表的传统神经网络不同,CNN 会分析图像中微小的重叠区域,从而自动学习特征层级——从简单的边缘和纹理到复杂的形状和物体。这种能力使其成为现代计算机视觉 (CV) 系统的基础技术。
Link to this section卷积神经网络的工作原理#
CNN 的强大之处在于它能够将复杂的图像简化为一种更易于处理的形式,同时不会丢失对获得良好预测至关重要的特征。这是通过一系列不同的层来实现的,这些层将输入数据量转换为输出类别或数值:
- 卷积层: 这是核心构建块。它使用一组可学习的滤波器(或内核),像手电筒一样在输入图像上滑动。在每个位置,滤波器执行一种称为卷积的数学运算,从而创建一个突出显示水平线或颜色梯度等特定模式的特征图。
- 激活函数: 卷积后,会对输出应用一个非线性函数。最常见的选择是 ReLU (修正线性单元),它将负像素值变为零。这引入了非线性,使网络能够学习超越简单线性关系的复杂模式。
- 池化层: 也称为下采样,该层可降低特征图的维度。诸如最大池化之类的技术仅保留区域中最显著的特征(最高值),这降低了计算负载并有助于防止过拟合。
- 全连接层: 在最后阶段,处理后的特征被展平并馈送到标准神经网络 (NN) 中。该层利用前几层识别出的高级特征来进行最终的分类或预测,例如“猫”或“狗”。
Link to this section实际应用#
CNN 通过以超越人类的准确率自动完成视觉任务,改变了各行各业。
- 医学诊断: 在医疗保健领域,CNN 通过比肉眼更快地识别医学扫描中的异常来辅助放射科医生。例如,深度学习模型会分析 MRI 和 CT 扫描 以检测肿瘤或骨折的早期迹象。涉及AI 在放射学中应用的研究强调了这些工具如何提高诊断的一致性和速度。
- 自动驾驶系统: 自动驾驶汽车非常依赖 CNN 来感知周围环境。像 YOLO26 这样的模型利用高效的 CNN 主干网络进行实时的目标检测,识别行人、交通标志和其他车辆,从而做出瞬间驾驶决策。
Link to this sectionCNN 与视觉 Transformer (ViT)#
虽然 CNN 长期以来一直是视觉任务的标准,但一种名为 视觉 Transformer (ViT) 的较新架构已经出现。
- CNN 使用局部特征处理图像,并且由于其“归纳偏置”(假设附近的像素相关),在较小的数据集上非常高效。它们擅长于需要边缘设备上实时推理的场景。
- ViT 将图像分割成补丁,并使用全局自注意力机制进行处理。这使它们能够捕获图像间的长距离依赖关系,但通常需要海量数据集和更多的计算能力才能有效训练。
Link to this section实现示例#
现代库使得使用基于 CNN 的模型变得非常简单。ultralytics 包提供了对 YOLO26 等先进模型的访问,这些模型具有针对快速推理而高度优化的 CNN 架构。
以下示例展示了如何加载预训练的 CNN 模型并运行预测:
from ultralytics import YOLO
# Load a YOLO26 model, which uses an advanced CNN architecture
model = YOLO("yolo26n.pt")
# Run inference on an image to identify objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the prediction results
results[0].show()Link to this section开发工具#
CNN 的开发得到了强大的开源工具生态系统的支持。工程师通常使用 PyTorch 或 TensorFlow 等框架来构建自定义架构。这些库提供了卷积和反向传播所需的底层张量运算。
For teams looking to streamline the lifecycle of computer vision projects—from data collection to deployment—the Ultralytics Platform offers a comprehensive solution. It simplifies complex workflows, allowing developers to focus on applying CNNs to solve business problems rather than managing infrastructure. Additionally, models can be exported to formats like ONNX or TensorRT for high-performance deployment on edge devices.






