深圳Yolo 视觉
深圳
立即加入
词汇表

卷积

探索计算机视觉和深度学习中卷积的基础知识。了解核和特征图如何为 Ultralytics YOLO26 提供实时任务支持。

卷积是一种基本的数学运算,是现代计算机视觉 (CV)深度学习 (DL)系统的核心构建模块。在图像处理中,卷积涉及将一个小型滤波器(通常称为核)在输入图像上滑动,以创建重要特征的映射。这个过程使人工智能 (AI)模型能够自动学习和识别边缘、纹理和形状等模式,而无需人工干预。与通常需要手动特征提取的传统机器学习 (ML)不同,卷积使网络能够建立对视觉数据的分层理解,从简单的线条开始,逐步发展到人脸或车辆等复杂物体。

卷积如何运作

该操作通过在输入数据上应用滤波器,执行逐元素乘法,并对结果求和,从而为每个位置生成一个单一值。这个输出被称为特征图

  • 核:这是一个小的数字矩阵(权重),用于检测特定特征。例如,Sobel 算子是一种特定类型的核,用于检测垂直或水平边缘。
  • 滑动窗口:核以称为“步长”的定义步进大小在图像上移动。这种空间滤波过程保留了像素之间的关系,这对于理解图像至关重要。
  • 层级结构:卷积神经网络(CNN)等深度架构中,初始层捕获低级细节,而更深层将这些细节组合成高级概念。

卷积与相关概念对比

为充分理解卷积,将其与 神经网络(NN) 文献中常见的类似术语区分开来是很有帮助的:

  • 互相关与卷积: 从数学上讲,真正的卷积涉及在应用前翻转核。 然而,大多数深度学习框架,包括 PyTorch库,都实现了 互相关(不翻转滑动),但将其标记为“卷积”,因为 权重在训练期间学习,使得翻转的区别对性能无关紧要。
  • 卷积与注意力: 虽然卷积局部处理信息(相邻像素),但 注意力机制允许模型 同时关联图像的远距离部分。YOLO26等现代架构通常利用高度优化的卷积层 来保持 实时推理速度,因为 注意力层计算成本可能更高。

实际应用

卷积的效率使AI能够通过为强大的感知系统提供动力,彻底改变各行各业:

  1. 医学诊断:医疗AI领域,卷积有助于分析高分辨率 MRI扫描。 通过使用旨在突出异常的特定核(kernels),模型能够以与人类专家相媲美的准确性detect肿瘤或骨折的早期迹象。
  2. 自主导航:自动驾驶汽车依靠卷积实现实时目标检测。随着汽车的移动,卷积层处理视频流以即时识别行人、车道线和交通标志,这是汽车人工智能安全的关键组成部分。

Python 与UltralyticsPython

您可以使用 Python 检查最先进模型中的卷积层。以下示例加载了 YOLO26 模型,并验证其初始层采用标准卷积操作,该操作通过 torch.nn.

import torch.nn as nn
from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Access the first layer of the model's backbone
first_layer = model.model.model[0]

# Verify it is a Convolutional layer
if isinstance(first_layer.conv, nn.Conv2d):
    print("Success: The first layer is a standard convolution.")
    print(f"Kernel size: {first_layer.conv.kernel_size}")

为什么卷积对边缘AI很重要

卷积操作具有高度可优化性,使其成为计算资源有限的边缘AI部署的理想选择。由于整个图像共享相同的核(参数共享),模型所需的内存显著少于旧的全连接架构。这种效率使得先进模型能够在智能手机和物联网设备上运行。

对于希望利用这些操作处理自定义数据集的团队,Ultralytics 平台提供了一个无缝环境,用于标注图像和训练基于卷积的模型,而无需管理复杂的底层架构。通过使用迁移学习,您可以微调预训练的卷积权重,以最少的训练数据识别新物体。

让我们一起共建AI的未来!

开启您的机器学习未来之旅