敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

视觉模型发展历程

Mostafa Ibrahim

5 分钟阅读

2024年7月16日

探索视觉模型的历史、成就、挑战和未来方向。

什么是计算机视觉

想象一下,走进一家商店,摄像头识别您的面部,分析您的情绪,并实时推荐根据您的喜好量身定制的产品。这不是科幻小说,而是现代视觉模型实现的现实。根据《财富商业洞察》的一份报告,2023 年全球计算机视觉市场规模估值为 203.1 亿美元,预计将从 2024 年的 254.1 亿美元增长到 2032 年的 1757.2 亿美元,这反映了这项技术在各个行业的快速发展和日益普及。

计算机视觉领域使计算机能够检测、识别和分析图像中的对象。与其他 AI 相关领域类似,计算机视觉在过去几十年中经历了快速发展,取得了显著的进步。 

计算机视觉的历史悠久。早期,计算机视觉模型能够检测简单的形状和边缘,通常仅限于识别几何图案或区分明暗区域等基本任务。然而,今天的模型可以执行复杂的任务,例如实时目标检测、面部识别,甚至可以以极高的准确性和效率解读面部表情中的情绪。这种巨大的进步突出了在计算能力、算法复杂性和用于训练的大量数据的可用性方面取得的令人难以置信的进步。

在本文中,我们将探讨计算机视觉发展史上的重要里程碑。我们将回顾其早期发展,深入研究卷积神经网络 (CNN) 的变革性影响,并考察随后的重大进展。

计算机视觉的早期开端

与其他人工智能领域一样,计算机视觉的早期发展始于基础研究和理论工作。一个重要的里程碑是 Lawrence G. Roberts 在 20 世纪 60 年代初的论文“三维固体的机器感知”中记录的关于 3D 目标识别的开创性工作。他的贡献为该领域未来的发展奠定了基础。

第一个算法 - 边缘检测

早期的计算机视觉研究侧重于图像处理技术,例如边缘检测和特征提取。像 Sobel 算子这样的算法,在 1960 年代后期开发,是最早通过计算图像强度梯度来检测边缘的算法之一。

图 1. 展示边缘检测的图像,左侧显示原始对象,右侧显示边缘检测后的版本。

诸如 Sobel 和 Canny 边缘检测器之类的技术在识别图像中的边界方面发挥了关键作用,这对于识别对象和理解场景至关重要。

机器学习和计算机视觉

模式识别

在 20 世纪 70 年代,模式识别成为计算机视觉的一个关键领域。研究人员开发了识别图像中的形状、纹理和对象的方法,这为更复杂的视觉任务铺平了道路。

图 2. 模式识别。

早期的一种模式识别方法涉及模板匹配,即将图像与一组模板进行比较,以找到最佳匹配。这种方法受到其对尺度、旋转和噪声变化的敏感性的限制。

图 3. 在右侧图像中找到的左侧模板。

早期的计算机视觉系统受到当时有限的计算能力的制约。20世纪60年代和70年代的计算机体积庞大、价格昂贵,且处理能力有限。

利用深度学习改变游戏规则

深度学习和卷积神经网络

深度学习和卷积神经网络 (CNN) 标志着计算机视觉领域的一个关键时刻。这些进步极大地改变了计算机解释和分析视觉数据的方式,从而实现了以前认为不可能的各种应用。

卷积神经网络 (CNN) 如何运作?

图 4. 卷积神经网络 (CNN) 的架构。

  1. 卷积层:CNN 使用卷积层,卷积层是一种深度学习模型,旨在通过自动学习分层模式来处理结构化的网格状数据(如图像或序列)。通过使用滤波器或卷积核扫描图像。这些滤波器通过在图像上滑动并计算点积来检测各种特征,如边缘、纹理和颜色。每个滤波器激活图像中的特定模式,使模型能够学习分层特征。
  2. 激活函数:卷积之后,使用诸如ReLU(修正线性单元)之类的激活函数,ReLU是深度学习中一种流行的激活函数,如果输入为正,则直接输出输入,否则输出零,从而帮助神经网络有效地学习数据中的非线性关系。这有助于网络学习复杂的模式和表示。
  3. 池化层池化层提供了一种降采样操作,可降低特征图的维度,从而有助于提取最相关的特征,同时降低计算成本和过拟合。
  4. 全连接层:CNN 的最后一层是全连接层,它解释卷积层和池化层提取的特征以进行预测。这些层与传统神经网络中的层相似。

CNN 视觉模型的演变

视觉模型的发展历程非常广泛,其中一些最著名的模型包括:

  • LeNet (1989): LeNet是最早的CNN架构之一,主要用于手写支票中的数字识别。它的成功为更复杂的CNN奠定了基础,证明了深度学习在图像处理中的潜力。
  • AlexNet (2012): AlexNet 在 ImageNet 竞赛中显著优于现有模型,展示了深度学习的强大功能。该模型利用 ReLU 激活、dropout 和数据增强,在图像分类中树立了新的基准,并激发了人们对 CNN 的广泛兴趣。
  • VGGNet (2014): 通过使用较小的卷积滤波器 (3x3),VGGNet 在图像分类任务上取得了令人印象深刻的结果,从而加强了网络深度在实现更高准确性方面的重要性。
  • ResNet (2015): ResNet 通过引入残差学习解决了深度网络中的退化问题。这项创新允许训练更深的网络,从而在各种计算机视觉任务中实现了最先进的性能。
  • YOLO (You Only Look Once): YOLO 将目标检测转化为一个单一的回归问题,从而彻底改变了目标检测,它通过一次评估直接从完整图像中预测边界框和类别概率。这种方法实现了前所未有的速度和准确性的实时目标检测,使其适用于需要即时处理的应用,例如自动驾驶监控

计算机视觉应用

医疗健康

计算机视觉的用途非常广泛。 例如,像Ultralytics YOLOv8这样的视觉模型被用于医学影像中,以检测诸如癌症和糖尿病视网膜病变之类的疾病。 它们以高精度分析 X 射线、MRI 和 CT 扫描,及早发现异常情况。 这种早期检测能力可以实现及时干预并改善患者的治疗效果。

图 5. 使用 Ultralytics YOLOv8 进行脑肿瘤检测。

环境保护

计算机视觉模型通过分析野生动物栖息地的图像和视频,帮助监测和保护濒危物种。它们识别并跟踪动物的行为,提供有关其种群和迁徙的数据。这项技术为保护老虎和大象等物种的保护策略和政策决策提供信息。

在视觉 AI 的帮助下,可以监控其他环境威胁,例如野火和森林砍伐,从而确保地方当局能够快速响应。

图 6. 野火的卫星图像。

挑战与未来发展方向

尽管视觉模型已经取得了显著的成就,但由于其极端的复杂性和苛刻的开发性质,它们面临着许多挑战,需要持续的研究和未来的进步。

可解释性和可说明性

视觉模型,尤其是深度学习模型,通常被视为透明度有限的“黑盒”。这是因为此类模型非常复杂。缺乏可解释性会阻碍信任和责任,尤其是在医疗保健等关键应用中。

计算需求

训练和部署最先进的 AI 模型需要大量的计算资源。对于视觉模型来说尤其如此,因为视觉模型通常需要处理大量的图像和视频数据。高清图像和视频是数据密集型训练输入,这增加了计算负担。例如,单个高清图像可能占用几兆字节的存储空间,这使得训练过程资源密集且耗时。

这就需要强大的硬件和优化的计算机视觉算法来处理开发有效视觉模型所涉及的大量数据和复杂计算。对更高效的架构、模型压缩和硬件加速器(如GPU和TPU)的研究是推动视觉模型未来发展的关键领域。

这些改进旨在减少计算需求并提高处理效率。此外,利用 YOLOv8 等先进的预训练模型可以显著减少对大量训练的需求,从而简化开发过程并提高效率。

不断发展的格局

如今,视觉模型的应用非常广泛,从医疗保健(如肿瘤检测)到日常用途(如交通监控)。这些先进的模型通过提供前所未有的增强的准确性、效率和能力,为无数行业带来了创新。

随着技术的不断进步,视觉模型在创新和改善生活和工业各个方面的潜力仍然是无限的。这种持续的演变强调了在计算机视觉领域继续进行研究和开发的重要性。

对视觉 AI 的未来感到好奇吗?有关最新进展的更多信息,请浏览 Ultralytics 文档,并查看他们在 Ultralytics GitHubYOLOv8 GitHub 上的项目。此外,要深入了解 AI 在各个行业的应用,自动驾驶汽车制造业上的解决方案页面提供了特别有用的信息。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板