深圳Yolo 视觉
深圳
立即加入
词汇表

卷积神经网络 (CNN)

探索卷积神经网络(CNN)如何驱动现代计算机视觉技术。了解其层级结构、应用场景,并学习如何运行Ultralytics 实现实时人工智能。

卷积神经网络(CNN)是一种专为处理具有网格状拓扑结构的数据(尤其是数字图像)而设计的深度学习架构。受视觉皮层生物结构的启发,CNN具备独特能力,能够在输入数据中保留空间关系。 与传统神经网络将图像扁平化为长数列不同,卷积神经网络通过分析图像中微小重叠区域,自动学习从简单边缘纹理到复杂形状物体的分层特征。这种能力使其成为现代计算机视觉(CV)系统的基础技术。

卷积神经网络的工作原理

卷积神经网络(CNN)的强大之处在于其能够将复杂图像简化为更易处理的形式,同时不丢失获得良好预测的关键特征。这一目标是通过一系列独立层组成的管道实现的,这些层将输入体转换为输出类别或数值:

  • 卷积层这是核心构建模块。它使用一组可学习的滤波器(或称卷积核),如同手电筒般在输入图像上滑动。在每个位置,滤波器执行称为卷积的数学运算,生成突出特定模式(如水平线或色彩渐变)的特征图
  • 激活函数卷积操作后,对输出结果应用非线性函数。最常见的选择是ReLU(整流线性单元),该函数将负像素值转换为零。这种设计引入了非线性特性,使网络能够学习超越简单线性关系的复杂模式。
  • 池化层:也称为下采样,该层可降低特征图的维度。最大池化等技术仅保留区域内最重要的特征(最高值),从而减轻计算负荷并有助于防止过拟合
  • 全连接层:在最终阶段,经过处理的特征被展平并输入到标准神经网络(NN)中。该层利用前几层识别出的高级特征进行最终分类或预测,例如"猫"或"狗"。

实际应用

卷积神经网络通过以超乎人类的精度自动化视觉任务,彻底改变了多个行业。

  • 医学诊断:在医疗领域,卷积神经网络(CNNs)通过比人眼更快速地识别医学影像中的异常,为放射科医生提供辅助。例如,深度学习模型通过分析磁共振成像(MRI)和计算机断层扫描(CT)影像, detect 肿瘤或骨折detect 征兆。放射学领域的人工智能研究凸显了这些工具如何提升诊断的一致性和速度。
  • 自主系统:自动驾驶汽车高度依赖卷积神经网络(CNN)来感知周围环境。诸如YOLO26等模型采用高效的卷积神经网络骨干结构,实现实时目标检测识别行人、交通标志及其他车辆,从而在瞬间做出驾驶决策。

卷积神经网络与视觉变换器(ViT)

虽然卷积神经网络(CNN)长期以来一直是视觉任务的标准方案,但一种名为 Transformer ViT)的新型架构已然崛起。

  • 卷积神经网络通过局部特征处理图像,并因其"归纳偏置"(假设相邻像素相关)而在小规模数据集上表现出极高效率。它们在需要边缘设备实时推理的场景中表现尤为出色。
  • ViTs将图像分割为补丁,并通过全局自注意力机制进行处理。这使其能够捕捉图像中的长程依赖关系,但通常需要海量数据集和更强的计算能力才能有效训练。

实施实例

现代库使得使用基于卷积神经网络(CNN)的模型变得非常简单。 ultralytics 该软件包提供对YOLO26等尖端模型的访问权限,这些模型采用高度优化的卷积神经网络(CNN)架构,可实现快速推理。

以下示例演示了如何加载预训练的卷积神经网络(CNN)模型并执行预测:

from ultralytics import YOLO

# Load a YOLO26 model, which uses an advanced CNN architecture
model = YOLO("yolo26n.pt")

# Run inference on an image to identify objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the prediction results
results[0].show()

开发工具

卷积神经网络(CNN)的开发得到了强大的开源工具生态系统的支持。工程师通常使用诸如PyTorch等框架。 PyTorchTensorFlow 来构建定制化 架构。这些库提供了卷积和 反向 tensor 。

对于希望简化计算机视觉项目生命周期的团队——从数据采集Ultralytics 提供了一套全面解决方案。它能简化复杂工作流程,让开发者专注于运用卷积神经网络解决业务问题,而非耗费精力管理基础设施。此外,模型可导出为ONNX等格式,支持跨平台部署。 ONNXTensorRT 等格式,实现边缘设备的高性能部署。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入