了解卷积如何为计算机视觉中的人工智能提供动力,从而能够精确地执行目标检测、图像识别和医学成像等任务。
卷积是一种专门的数学运算,是现代计算机视觉(CV)系统的基本构件。 计算机视觉 (CV)系统的基本构件。在 人工智能(AI) 卷积使模型能够处理网格状数据(如图像),通过系统过滤输入来提取有意义的模式。 有意义的模式。与需要人工设定规则的传统算法不同,卷积可以让神经网络 神经网络自动学习空间 从简单的边缘和纹理到复杂的物体形状,神经网络都能自动学习这些特征的空间层次结构。 大脑视觉皮层中观察到的生物过程。
该操作通过在输入图像上滑动一个小型数字矩阵(称为 核或滤波器,在输入图像上滑动。在每个 位置上,内核对重叠的像素值进行元素乘法运算,并将运算结果相加,生成单个输出像素。 生成一个输出像素。这一过程会生成 特征图,突出显示检测到特定模式的区域。 检测到特定模式的区域。
定义卷积行为的关键参数包括
卷积是 卷积神经网络(CNN)的主要引擎。它的重要意义在于两个主要特性:参数共享和空间定位。 空间定位。通过使用相同的 模型权重(内核),网络就能保持计算效率,并能对整个图像进行处理。 网络仍然具有计算效率,并且能够 平移不变性、 也就是说,无论物体出现在画面的哪个位置,它都能识别出来。这种效率使得复杂的 架构,如 YOLO11这样的复杂架构可以在 从功能强大的 GPU 到资源有限的边缘人工智能设备。 边缘人工智能设备。
卷积技术的用途几乎遍及所有使用视觉数据的行业:
必须将卷积层与全连接(密集)层区分开来。在全连接层中 层中,每个输入神经元都连接到每个输出神经元,这不仅计算成本高,而且忽略了图像的空间结构。 图像的空间结构。相反,卷积则保留了空间关系,并大大减少了参数数量,从而避免了在高分辨率下的过度拟合。 参数的数量,从而避免了对高维数据的过度拟合。 数据的过度拟合。密集层通常用于最终分类,而卷积层则负责特征提取的繁重工作。 特征提取。
您可以使用
ultralytics 软件包。以下代码会加载一个
YOLO11 模型并打印其结构,揭示了
Conv2d 用于处理的层。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Print the model architecture to observe Conv2d layers
# These layers perform the convolution operations to extract features
print(model.model)