深圳Yolo 视觉
深圳
立即加入
词汇表

卷积

了解卷积如何为计算机视觉中的人工智能提供动力,从而能够精确地执行目标检测、图像识别和医学成像等任务。

卷积是一种专门的数学运算,是现代计算机视觉(CV)系统的基本构件。 计算机视觉 (CV)系统的基本构件。在 人工智能(AI) 卷积使模型能够处理网格状数据(如图像),通过系统过滤输入来提取有意义的模式。 有意义的模式。与需要人工设定规则的传统算法不同,卷积可以让神经网络 神经网络自动学习空间 从简单的边缘和纹理到复杂的物体形状,神经网络都能自动学习这些特征的空间层次结构。 大脑视觉皮层中观察到的生物过程。

卷积机制

该操作通过在输入图像上滑动一个小型数字矩阵(称为 或滤波器,在输入图像上滑动。在每个 位置上,内核对重叠的像素值进行元素乘法运算,并将运算结果相加,生成单个输出像素。 生成一个输出像素。这一过程会生成 特征图,突出显示检测到特定模式的区域。 检测到特定模式的区域。

定义卷积行为的关键参数包括

  • 内核尺寸:滤波器的尺寸(如 3x3 或 5x5),决定了一次性考虑的输入区域,通常被称为 "内核尺寸"。 通常称为 感受野
  • 步长滤波器在图像上移动的步长。步长越大 步长会导致输出 尺寸,从而有效降低数据采样率。
  • 填充:填充:在输入中添加边界像素(通常为零),以控制输出的空间大小。 这一概念在 PyTorch 文档中详细介绍了这一概念。

深度学习的相关性

卷积是 卷积神经网络(CNN)的主要引擎。它的重要意义在于两个主要特性:参数共享和空间定位。 空间定位。通过使用相同的 模型权重(内核),网络就能保持计算效率,并能对整个图像进行处理。 网络仍然具有计算效率,并且能够 平移不变性、 也就是说,无论物体出现在画面的哪个位置,它都能识别出来。这种效率使得复杂的 架构,如 YOLO11这样的复杂架构可以在 从功能强大的 GPU 到资源有限的边缘人工智能设备。 边缘人工智能设备。

实际应用

卷积技术的用途几乎遍及所有使用视觉数据的行业:

  • 医学影像分析:在医疗保健领域的人工智能中,卷积允许算法 扫描 核磁共振成像和 CT 扫描,以 识别微小异常。例如,可以训练特定的核来突出与早期肿瘤相关的不规则纹理,从而帮助放射科医生做出准确的诊断。 与早期肿瘤相关的不规则纹理,从而帮助放射科医生做出准确诊断。
  • 自主导航:自动驾驶汽车在很大程度上依靠卷积技术进行 物体检测图像分割。系统处理视频 系统处理视频,以区分车道、行人和交通标志,从而使汽车人工智能能 汽车人工智能能够在瞬间做出安全的驾驶决策。 驾驶决策。

卷积层与全连接层

必须将卷积全连接(密集)层区分开来。在全连接层中 层中,每个输入神经元都连接到每个输出神经元,这不仅计算成本高,而且忽略了图像的空间结构。 图像的空间结构。相反,卷积则保留了空间关系,并大大减少了参数数量,从而避免了在高分辨率下的过度拟合。 参数的数量,从而避免了对高维数据的过度拟合。 数据的过度拟合。密集层通常用于最终分类,而卷积层则负责特征提取的繁重工作。 特征提取

用Ultralytics实现卷积

您可以使用 ultralytics 软件包。以下代码会加载一个 YOLO11 模型并打印其结构,揭示了 Conv2d 用于处理的层。

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Print the model architecture to observe Conv2d layers
# These layers perform the convolution operations to extract features
print(model.model)

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入