深圳尤洛视觉
深圳
立即加入
词汇表

卷积

了解卷积如何为计算机视觉中的人工智能提供动力,从而能够精确地执行目标检测、图像识别和医学成像等任务。

卷积是 深度学习 (DL) 中的一项基本操作,尤其是在 计算机视觉 (CV) 领域。它是 卷积神经网络 (CNN) 的主要构建块,使模型能够自动有效地从网格状数据(如图像)中学习分层特征。该过程包括在输入图像上滑动一个称为内核的小滤波器,以生成突出显示特定模式(如边缘、纹理或形状)的 特征图。这种方法的灵感来自动物视觉皮层的组织方式,并且对于数据点之间的空间关系很重要的任务非常有效。

卷积如何运作

从本质上讲,卷积是一种合并两组信息的数学运算。在 CNN 的上下文中,它将输入数据(图像的像素值)与卷积核相结合。卷积核是一个小的权重矩阵,充当特征检测器。该卷积核在输入图像的高度和宽度上滑动,并且在每个位置,它与图像的重叠部分执行逐元素乘法。将结果相加,以在输出特征图中创建一个像素。此滑动过程在整个图像上重复进行。

通过使用不同的卷积核,CNN 可以学习检测各种各样的特征。早期的层可能会学习识别简单的模式,如边缘和颜色,而更深的层可以将这些基本特征组合起来,以识别更复杂的结构,如眼睛、车轮或文本。这种构建视觉特征层次结构的能力是 CNN 在视觉任务中发挥作用的原因。通过两个关键原则,该过程在计算上变得高效:

  • 参数共享: 整个图像使用相同的内核,与完全连接的网络相比,这大大减少了可学习参数的总数。这种高效参数使用的概念也有助于模型更好地泛化。
  • 空间局部性:该操作假设彼此靠近的像素比远处像素更强相关,这是一种强大的 归纳偏置,对于自然图像非常有效。

在深度学习中的重要性

卷积是现代计算机视觉的基石。像 Ultralytics YOLO 这样的模型在其 主干 架构中广泛使用卷积层,以实现强大的 特征提取。这使得从 目标检测图像分割 到更复杂的任务等广泛应用成为可能。卷积的效率和有效性使其成为处理图像和其他空间数据的首选方法,构成了 视觉模型发展史 等资源中详述的许多最先进架构的基础。

实际应用

  • 医学影像分析:医疗保健 AI 领域,CNN 使用卷积来分析医学扫描图像,如 MRI 或 CT。可以训练 Kernel 来检测肿瘤或其他异常的特定纹理和形状特征,从而帮助放射科医生做出更快、更准确的诊断。您可以在诸如 Radiology: Artificial Intelligence 等期刊中阅读有关这些进展的更多信息。
  • 自动驾驶汽车: 自动驾驶汽车依靠CNN来感知周围环境。卷积实时处理来自摄像头的输入,以识别行人、其他车辆、交通车道和道路标志。这使得汽车的系统能够全面了解其环境并安全导航,正如Waymo等公司开发的技术所见。

卷积与相关概念

区分卷积和其他神经网络运算是有帮助的:

  • 全连接层: 在全连接层中,每个神经元都连接到前一层中的每个神经元。对于图像,这是非常低效的,因为它忽略了空间结构并导致大量参数。卷积凭借其局部连接和参数共享,更具可扩展性,更适合图像数据。
  • 视觉 Transformer (ViT): 与 CNN 的局部特征检测不同,视觉 Transformer 使用自注意力机制来建模不同图像块之间的全局关系。虽然 ViT 功能强大,但通常需要更大的数据集才能从头开始学习这些关系,而卷积的归纳偏置使其在数据利用上更有效率。诸如RT-DETR之类的混合模型旨在结合这两种方法的优势。

工具与训练

各种深度学习框架都有助于实施和训练使用卷积的模型。PyTorchPyTorch 官方网站)和 TensorFlowTensorFlow 官方网站)等库提供了用于构建 CNN 的强大工具。诸如 Keras 之类的高级 API 进一步简化了开发。

为了获得简化的体验,像 Ultralytics HUB 这样的平台允许用户轻松管理数据集、执行模型训练和部署像 YOLO11 这样强大的模型。理解卷积、卷积核大小步长、填充以及由此产生的感受野等核心概念对于有效的模型训练和架构设计至关重要。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板