视觉 AI

视觉模型的历史

探索视觉模型的历史、成就、挑战和未来方向。

MOMostafa Ibrahim

5 min readJuly 16, 2024

Link to this section什么是计算机视觉#

想象一下，你走进一家商店，摄像头实时识别出你的面部，分析你的情绪，并根据你的喜好推荐产品——这不再是科幻小说，而是现代视觉模型所实现的现实。根据 Fortune Business Insight 的报告，全球计算机视觉市场规模在 2023 年估值为 203.1 亿美元，预计将从 2024 年的 254.1 亿美元增长到 2032 年的 1757.2 亿美元，这反映了该技术在各行各业的快速进步和日益广泛的应用。

计算机视觉领域使计算机能够检测、识别和分析图像中的对象。与其他人工智能相关领域类似，计算机视觉在过去几十年中经历了飞速演变，取得了显著进步。

计算机视觉的历史源远流长。在早期，计算机视觉模型只能检测简单的形状和边缘，通常仅限于识别几何图案或区分明暗区域等基本任务。然而，今天的模型能够执行复杂的任务，如实时目标检测、人脸识别，甚至能以出色的精度和效率解析面部表情所传达的情绪。这种巨大的进步突显了计算能力、算法复杂性以及用于训练的海量数据的可用性方面所取得的惊人跨越。

在本文中，我们将探讨计算机视觉演进过程中的关键里程碑。我们将回顾它的早期起源，深入了解卷积神经网络 (CNN) 的变革性影响，并审视随之而来的重大进展。

Link to this section计算机视觉的早期起源#

正如其他人工智能领域一样，计算机视觉的早期发展始于基础研究和理论工作。一个重要的里程碑是 Lawrence G. Roberts 在 20 世纪 60 年代初在其论文“三维固体的机器感知”中记录的 3D 对象识别开创性工作。他的贡献为该领域未来的进步奠定了基础。

Link to this section最初的算法 - 边缘检测#

早期的计算机视觉研究专注于图像处理技术，如边缘检测和特征提取。20 世纪 60 年代末开发的 Sobel 算子等算法是最早通过计算图像强度梯度来检测边缘的算法之一。

展示边缘检测的图像

图 1。展示边缘检测的图像，左侧显示原始对象，右侧显示边缘检测后的版本。

Sobel 和 Canny 边缘检测器等技术在识别图像边界方面发挥了至关重要的作用，这对于识别对象和理解场景至关重要。

Link to this section机器学习与计算机视觉#

Link to this section模式识别#

20 世纪 70 年代，模式识别成为计算机视觉的一个关键领域。研究人员开发了用于识别图像中的形状、纹理和对象的方法，这为更复杂的视觉任务铺平了道路。

模式识别

图 2。模式识别。

早期的模式识别方法之一涉及模板匹配，即将图像与一组模板进行比较以找到最佳匹配项。这种方法受限于对尺度、旋转和噪声变化的敏感性。

图像内的模板匹配

图 3。左侧的模板在右侧图像中被找到。

早期的计算机视觉系统受到当时有限计算能力的制约。20 世纪 60 年代和 70 年代的计算机体积庞大、价格昂贵，且处理能力有限。

Link to this section深度学习改变游戏规则#

Link to this section深度学习和卷积神经网络#

深度学习和卷积神经网络 (CNN) 标志着计算机视觉领域的一个关键转折点。这些进步极大地改变了计算机解释和分析视觉数据的方式，实现了许多以前被认为不可能的应用。

Link to this sectionCNN 如何工作？#

卷积神经网络 (CNN) 的架构

图 4。卷积神经网络 (CNN) 的架构。

卷积层：CNN 使用卷积层，这是一种旨在通过自动学习分层模式来处理结构化网格数据（如图像或序列）的深度学习模型，通过使用滤波器或核来扫描图像。这些滤波器通过在图像上滑动并计算点积来检测边缘、纹理和颜色等各种特征。每个滤波器都会激活图像中的特定模式，使模型能够学习分层特征。
激活函数：卷积后，使用像 ReLU (修正线性单元) 这样的激活函数，它是深度学习中一种常用的激活函数，如果输入为正则直接输出，否则输出零，从而帮助神经网络高效学习数据中的非线性关系。这有助于网络学习复杂的模式和表示。
池化层：池化层提供了一种下采样操作，可减少特征图的维度，有助于在降低计算成本和防止过拟合的同时提取最相关的特征。
全连接层：CNN 的最终层是全连接层，它解析卷积层和池化层提取的特征以进行预测。这些层与传统神经网络中的层类似。

Link to this sectionCNN 视觉模型的演进#

视觉模型的旅程非常漫长，其中包含了一些最著名的模型：

LeNet (1989): LeNet 是最早的 CNN 架构之一，主要用于手写支票上的数字识别。它的成功为更复杂的 CNN 奠定了基础，证明了深度学习在图像处理中的潜力。
AlexNet (2012): AlexNet 在 ImageNet 竞赛中大幅超越了现有模型，展示了深度学习的力量。该模型使用了 ReLU 激活、Dropout 和数据增强，在图像分类方面树立了新标杆，并引发了对 CNN 的广泛关注。
VGGNet (2014): 通过使用更小的卷积滤波器 (3x3)，VGGNet 在图像分类任务上取得了令人印象深刻的结果，强化了网络深度对实现更高准确率的重要性。
ResNet (2015): ResNet 通过引入残差学习解决了深层网络中的退化问题。这一创新使得训练更深层的网络成为可能，从而在各种计算机视觉任务中实现了最先进的性能。
YOLO (You Only Look Once)：YOLO 将目标检测重构为一个单一的回归问题，从而彻底改变了这一领域；它通过一次评估直接从全图中预测边界框和类别概率。这种方法实现了具有前所未有速度和准确性的实时目标检测，使其适用于自动驾驶和监控等需要即时处理的应用场景。