深圳Yolo 视觉
深圳
立即加入
词汇表

卷积神经网络 (CNN)

探索卷积神经网络 (CNN) 如何驱动现代计算机视觉。了解其层、应用以及如何运行Ultralytics YOLO26实现实时AI。

卷积神经网络(CNN)是一种专为处理具有网格状拓扑结构的数据(尤其是数字图像)而设计的深度学习架构。受视觉皮层生物结构的启发,CNN具备独特能力,能够在输入数据中保留空间关系。 与传统神经网络将图像扁平化为长数列不同,卷积神经网络通过分析图像中微小重叠区域,自动学习从简单边缘纹理到复杂形状物体的分层特征。这种能力使其成为现代计算机视觉(CV)系统的基础技术。

卷积神经网络的工作原理

CNN 的强大之处在于它能够将复杂的图像简化为更易于处理的形式,同时不丢失对获得良好预测至关重要的特征。这是通过一系列独特的层(layers)实现的,这些层将输入体(input volume)转换为输出类别或值:

  • 卷积层这是核心构建块。它使用一组可学习的滤波器(或卷积核),像手电筒一样在输入图像上滑动。在每个位置,滤波器执行一个称为卷积的数学运算,创建一个特征图,突出显示水平线或颜色梯度等特定模式。
  • 激活函数 在 卷积之后,会对输出应用一个非线性函数。最常见的选择是 ReLU(修正线性单元),它将负像素值变为零。这引入了非线性,使网络能够学习超越简单线性关系的复杂模式。
  • 池化层:也称为下采样,该层可降低特征图的维度。最大池化等技术仅保留区域内最重要的特征(最高值),从而减轻计算负荷并有助于防止过拟合
  • 全连接层:在最终阶段,经过处理的特征被展平并输入到标准神经网络(NN)中。该层利用前几层识别出的高级特征进行最终分类或预测,例如"猫"或"狗"。

实际应用

卷积神经网络通过以超乎人类的精度自动化视觉任务,彻底改变了多个行业。

  • 医疗诊断:在医疗保健领域,CNN通过比人眼更快地识别医学扫描中的异常,辅助放射科医生。例如,深度学习模型分析MRI和CT扫描,以detect肿瘤或骨折的早期迹象。涉及放射学AI的研究强调了这些工具如何提高诊断的一致性和速度。
  • 自主系统:自动驾驶汽车高度依赖卷积神经网络(CNN)来感知周围环境。诸如YOLO26等模型采用高效的卷积神经网络骨干结构,实现实时目标检测识别行人、交通标志及其他车辆,从而在瞬间做出驾驶决策。

卷积神经网络与视觉变换器(ViT)

虽然卷积神经网络(CNN)长期以来一直是视觉任务的标准方案,但一种名为 Transformer ViT)的新型架构已然崛起。

  • 卷积神经网络 (CNN) 使用局部特征处理图像,并且由于其“归纳偏置”(它们假设相邻像素相关),在较小数据集上效率很高。它们在需要边缘设备上 实时推理 的场景中表现出色。
  • ViTs将图像分割为补丁,并通过全局自注意力机制进行处理。这使其能够捕捉图像中的长程依赖关系,但通常需要海量数据集和更强的计算能力才能有效训练。

实施实例

现代库使得使用基于卷积神经网络(CNN)的模型变得非常简单。 ultralytics 该软件包提供对YOLO26等尖端模型的访问权限,这些模型采用高度优化的卷积神经网络(CNN)架构,可实现快速推理。

以下示例演示了如何加载预训练的卷积神经网络(CNN)模型并执行预测:

from ultralytics import YOLO

# Load a YOLO26 model, which uses an advanced CNN architecture
model = YOLO("yolo26n.pt")

# Run inference on an image to identify objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the prediction results
results[0].show()

开发工具

CNN的开发得到了强大的开源工具生态系统的支持。工程师通常使用PyTorchTensorFlow等框架来构建自定义架构。这些库提供了卷积和反向传播所需的底层tensor操作。

对于希望简化计算机视觉项目生命周期(从数据收集到部署)的团队,Ultralytics平台提供了一个全面的解决方案。它简化了复杂的工作流程,使开发人员能够专注于应用CNN解决业务问题,而不是管理基础设施。此外,模型可以导出为ONNXTensorRT等格式,以便在边缘设备上进行高性能部署。

让我们一起共建AI的未来!

开启您的机器学习未来之旅