了解卷积如何为计算机视觉中的人工智能提供动力,从而能够精确地执行目标检测、图像识别和医学成像等任务。
卷积是 深度学习 (DL) 中的一项基本操作,尤其是在 计算机视觉 (CV) 领域。它是 卷积神经网络 (CNN) 的主要构建块,使模型能够自动有效地从网格状数据(如图像)中学习分层特征。该过程包括在输入图像上滑动一个称为内核的小滤波器,以生成突出显示特定模式(如边缘、纹理或形状)的 特征图。这种方法的灵感来自动物视觉皮层的组织方式,并且对于数据点之间的空间关系很重要的任务非常有效。
从本质上讲,卷积是一种合并两组信息的数学运算。在 CNN 的上下文中,它将输入数据(图像的像素值)与卷积核相结合。卷积核是一个小的权重矩阵,充当特征检测器。该卷积核在输入图像的高度和宽度上滑动,并且在每个位置,它与图像的重叠部分执行逐元素乘法。将结果相加,以在输出特征图中创建一个像素。此滑动过程在整个图像上重复进行。
通过使用不同的卷积核,CNN 可以学习检测各种各样的特征。早期的层可能会学习识别简单的模式,如边缘和颜色,而更深的层可以将这些基本特征组合起来,以识别更复杂的结构,如眼睛、车轮或文本。这种构建视觉特征层次结构的能力是 CNN 在视觉任务中发挥作用的原因。通过两个关键原则,该过程在计算上变得高效:
卷积是现代计算机视觉的基石。像 Ultralytics YOLO 这样的模型在其 主干 架构中广泛使用卷积层,以实现强大的 特征提取。这使得从 目标检测 和 图像分割 到更复杂的任务等广泛应用成为可能。卷积的效率和有效性使其成为处理图像和其他空间数据的首选方法,构成了 视觉模型发展史 等资源中详述的许多最先进架构的基础。
区分卷积和其他神经网络运算是有帮助的:
各种深度学习框架都有助于实施和训练使用卷积的模型。PyTorch(PyTorch 官方网站)和 TensorFlow(TensorFlow 官方网站)等库提供了用于构建 CNN 的强大工具。诸如 Keras 之类的高级 API 进一步简化了开发。
为了获得简化的体验,像 Ultralytics HUB 这样的平台允许用户轻松管理数据集、执行模型训练和部署像 YOLO11 这样强大的模型。理解卷积、卷积核大小、步长、填充以及由此产生的感受野等核心概念对于有效的模型训练和架构设计至关重要。