探索计算机视觉和深度学习中卷积的基础知识。了解核和特征图如何为 Ultralytics YOLO26 提供实时任务支持。
卷积是一种基本的数学运算,是现代计算机视觉 (CV)和深度学习 (DL)系统的核心构建模块。在图像处理中,卷积涉及将一个小型滤波器(通常称为核)在输入图像上滑动,以创建重要特征的映射。这个过程使人工智能 (AI)模型能够自动学习和识别边缘、纹理和形状等模式,而无需人工干预。与通常需要手动特征提取的传统机器学习 (ML)不同,卷积使网络能够建立对视觉数据的分层理解,从简单的线条开始,逐步发展到人脸或车辆等复杂物体。
该操作通过在输入数据上应用滤波器,执行逐元素乘法,并对结果求和,从而为每个位置生成一个单一值。这个输出被称为特征图。
为充分理解卷积,将其与 神经网络(NN) 文献中常见的类似术语区分开来是很有帮助的:
卷积的效率使AI能够通过为强大的感知系统提供动力,彻底改变各行各业:
您可以使用 Python 检查最先进模型中的卷积层。以下示例加载了
YOLO26 模型,并验证其初始层采用标准卷积操作,该操作通过 torch.nn.
import torch.nn as nn
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Access the first layer of the model's backbone
first_layer = model.model.model[0]
# Verify it is a Convolutional layer
if isinstance(first_layer.conv, nn.Conv2d):
print("Success: The first layer is a standard convolution.")
print(f"Kernel size: {first_layer.conv.kernel_size}")
卷积操作具有高度可优化性,使其成为计算资源有限的边缘AI部署的理想选择。由于整个图像共享相同的核(参数共享),模型所需的内存显著少于旧的全连接架构。这种效率使得先进模型能够在智能手机和物联网设备上运行。
对于希望利用这些操作处理自定义数据集的团队,Ultralytics 平台提供了一个无缝环境,用于标注图像和训练基于卷积的模型,而无需管理复杂的底层架构。通过使用迁移学习,您可以微调预训练的卷积权重,以最少的训练数据识别新物体。
开启您的机器学习未来之旅