深圳Yolo 视觉
深圳
立即加入
词汇表

卷积

探索卷积在计算机视觉与深度学习中的基础原理。了解卷积核与特征图如何赋能Ultralytics ,实现实时任务处理。

卷积是一种基础数学运算,作为现代计算机视觉(CV) 和深度学习(DL)系统的核心构建模块。在图像处理中,卷积操作通过在输入图像上滑动小型滤波器(通常称为卷积核)来生成重要特征的映射图。 该过程使人工智能(AI)模型能够在无需人工干预的情况下自动学习并识别边缘、纹理和形状等模式。不同于传统机器学习(ML)常需手动特征提取,卷积使神经网络能够构建分层的视觉数据理解体系——从简单线条起步,逐步进阶至面部或车辆等复杂物体。

卷积如何运作

该操作通过对输入数据应用滤波器,执行元素级乘法运算,并将结果求和,从而为每个位置生成单一值。该输出称为特征图

  • 核函数:这是一种用于检测特定特征的小型数值矩阵(权重)。例如,索贝尔算子就是一种用于detect 水平边缘的特定核函数类型。
  • 滑动窗口:内核以称为"步长"的固定步进在图像上移动。这种空间滤波过程能保持像素间的关联性,这对理解图像至关重要。
  • 层级结构:卷积神经网络(CNN)等深度架构中,初始层捕捉低级细节,而更深层则将这些细节整合为高级概念。

卷积与相关概念

要完全理解卷积,区分它与神经网络文献中常见的类似术语很有帮助:

  • 交叉相关与卷积:从数学角度而言真正的卷积操作需要在应用核函数前对其进行翻转然而,PyTorch 多数深度学习框架,实际实现的是交叉相关(滑动而不翻转),却将其标记为"卷积"——因为权重是在训练过程中学习获得的,使得翻转与否对性能已无影响。
  • 卷积与注意力 机制 卷积处理局部信息(相邻像素), 而注意力机制使模型能够 同时关联图像中遥远的区域。现代架构如 YOLO26常采用高度优化的卷积层 以保持实时推理速度,因为 注意力层的计算负荷往往更重。

实际应用

卷积计算的高效性使人工智能得以通过驱动强大的感知系统,在多个行业引发革命性变革:

  1. 医疗诊断:医疗健康领域的人工智能应用中,卷积技术有助于分析高分辨率的MRI扫描图像。通过使用专门设计的卷积核来突出显示异常区域,模型能够detect 肿瘤或骨折的detect 迹象,其准确度可与人类专家媲美。
  2. 自主导航:自动驾驶车辆依赖卷积技术实现实时物体检测。当车辆行驶时,卷积层处理视频流以即时识别行人、车道标线和交通标志,这是汽车安全领域人工智能的关键组成部分。

Python 与UltralyticsPython

您可以Python检查尖端模型中的卷积层。以下示例加载了 YOLO26 模型并验证其初始层采用标准卷积操作,该操作通过 torch.nn.

import torch.nn as nn
from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Access the first layer of the model's backbone
first_layer = model.model.model[0]

# Verify it is a Convolutional layer
if isinstance(first_layer.conv, nn.Conv2d):
    print("Success: The first layer is a standard convolution.")
    print(f"Kernel size: {first_layer.conv.kernel_size}")

卷积对边缘AI为何重要

卷积运算具有高度可优化性,使其成为计算资源受限的边缘AI部署的理想选择。由于整个图像共享相同的卷积核(参数共享),该模型所需内存远低于传统的全连接架构。这种高效性使得先进模型能够在智能手机和物联网设备上运行。

对于希望利用这些操作创建定制数据集的团队Ultralytics 提供了一个无缝环境,可用于标注图像并训练卷积模型,而无需管理复杂的基础设施。通过迁移学习,您能够微调预训练的卷积权重,仅需少量训练数据即可识别新对象。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入