遇见 YOLO26: 下一代视觉 AI。
Ultralytics
视觉 AI

视觉模型的历史

探索视觉模型的历史、成就、挑战和未来方向。

MOMostafa Ibrahim
5 min read
视觉模型的历史

Link to this section什么是计算机视觉#

想象一下,你走进一家商店,摄像头实时识别出你的面部,分析你的情绪,并根据你的喜好推荐产品——这不再是科幻小说,而是现代视觉模型所实现的现实。根据 Fortune Business Insight 的报告,全球计算机视觉市场规模在 2023 年估值为 203.1 亿美元,预计将从 2024 年的 254.1 亿美元增长到 2032 年的 1757.2 亿美元,这反映了该技术在各行各业的快速进步和日益广泛的应用。

计算机视觉领域使计算机能够检测、识别和分析图像中的对象。与其他人工智能相关领域类似,计算机视觉在过去几十年中经历了飞速演变,取得了显著进步。

计算机视觉的历史源远流长。在早期,计算机视觉模型只能检测简单的形状和边缘,通常仅限于识别几何图案或区分明暗区域等基本任务。然而,今天的模型能够执行复杂的任务,如 实时目标检测、人脸识别,甚至能以出色的精度和效率解析面部表情所传达的情绪。这种巨大的进步突显了计算能力、算法复杂性以及用于训练的海量数据的可用性方面所取得的惊人跨越。

在本文中,我们将探讨计算机视觉演进过程中的关键里程碑。我们将回顾它的早期起源,深入了解卷积神经网络 (CNN) 的变革性影响,并审视随之而来的重大进展。

Link to this section计算机视觉的早期起源#

正如其他人工智能领域一样,计算机视觉的早期发展始于基础研究和理论工作。一个重要的里程碑是 Lawrence G. Roberts 在 20 世纪 60 年代初在其论文“三维固体的机器感知”中记录的 3D 对象识别开创性工作。他的贡献为该领域未来的进步奠定了基础。

Link to this section最初的算法 - 边缘检测#

早期的计算机视觉研究专注于图像处理技术,如边缘检测和特征提取。20 世纪 60 年代末开发的 Sobel 算子等算法是最早通过计算图像强度梯度来检测边缘的算法之一。

展示边缘检测的图像

图 1。展示边缘检测的图像,左侧显示原始对象,右侧显示边缘检测后的版本。

Sobel 和 Canny 边缘检测器等技术在识别图像边界方面发挥了至关重要的作用,这对于识别对象和理解场景至关重要。

Link to this section机器学习与计算机视觉#

Link to this section模式识别#

20 世纪 70 年代,模式识别成为计算机视觉的一个关键领域。研究人员开发了用于识别图像中的形状、纹理和对象的方法,这为更复杂的视觉任务铺平了道路。

模式识别

图 2。模式识别。

早期的模式识别方法之一涉及模板匹配,即将图像与一组模板进行比较以找到最佳匹配项。这种方法受限于对尺度、旋转和噪声变化的敏感性。

图像内的模板匹配

图 3。左侧的模板在右侧图像中被找到。

早期的计算机视觉系统受到当时有限计算能力的制约。20 世纪 60 年代和 70 年代的计算机体积庞大、价格昂贵,且处理能力有限。

Link to this section深度学习改变游戏规则#

Link to this section深度学习和卷积神经网络#

深度学习和卷积神经网络 (CNN) 标志着计算机视觉领域的一个关键转折点。这些进步极大地改变了计算机解释和分析视觉数据的方式,实现了许多以前被认为不可能的应用。

Link to this sectionCNN 如何工作?#

卷积神经网络 (CNN) 的架构

图 4。卷积神经网络 (CNN) 的架构。

  1. 卷积层:CNN 使用 卷积层,这是一种旨在通过自动学习分层模式来处理结构化网格数据(如图像或序列)的深度学习模型,通过使用滤波器或核来扫描图像。这些滤波器通过在图像上滑动并计算点积来检测边缘、纹理和颜色等各种特征。每个滤波器都会激活图像中的特定模式,使模型能够学习分层特征。
  2. 激活函数:卷积后,使用像 ReLU (修正线性单元) 这样的激活函数,它是深度学习中一种常用的激活函数,如果输入为正则直接输出,否则输出零,从而帮助神经网络高效学习数据中的非线性关系。这有助于网络学习复杂的模式和表示。
  3. 池化层池化层 提供了一种下采样操作,可减少特征图的维度,有助于在降低计算成本和防止过拟合的同时提取最相关的特征。
  4. 全连接层:CNN 的最终层是全连接层,它解析卷积层和池化层提取的特征以进行预测。这些层与传统神经网络中的层类似。

Link to this sectionCNN 视觉模型的演进#

视觉模型 的旅程非常漫长,其中包含了一些最著名的模型:

  • LeNet (1989): LeNet 是最早的 CNN 架构之一,主要用于手写支票上的数字识别。它的成功为更复杂的 CNN 奠定了基础,证明了深度学习在图像处理中的潜力。

  • AlexNet (2012): AlexNet 在 ImageNet 竞赛中大幅超越了现有模型,展示了深度学习的力量。该模型使用了 ReLU 激活、Dropout 和数据增强,在图像分类方面树立了新标杆,并引发了对 CNN 的广泛关注。

  • VGGNet (2014): 通过使用更小的卷积滤波器 (3x3),VGGNet 在图像分类任务上取得了令人印象深刻的结果,强化了网络深度对实现更高准确率的重要性。

  • ResNet (2015): ResNet 通过引入残差学习解决了深层网络中的退化问题。这一创新使得训练更深层的网络成为可能,从而在各种计算机视觉任务中实现了最先进的性能。

  • YOLO (You Only Look Once):YOLO 将目标检测重构为一个单一的回归问题,从而彻底改变了这一领域;它通过一次评估直接从全图中预测边界框和类别概率。这种方法实现了具有前所未有速度和准确性的实时目标检测,使其适用于自动驾驶监控等需要即时处理的应用场景。

Link to this section计算机视觉应用#

Link to this section医疗保健#

计算机视觉的应用不胜枚举。例如,像 Ultralytics YOLOv8 这样的视觉模型被用于 医学影像,以检测癌症和糖尿病视网膜病变等疾病。它们以高精度分析 X 光片、MRI 和 CT 扫描,尽早发现异常。这种早期检测能力有助于及时干预并改善患者预后。

使用 Ultralytics YOLOv8 进行脑肿瘤检测

图 5。使用 Ultralytics YOLOv8 进行脑肿瘤检测。

Link to this section环境保护#

计算机视觉模型通过分析来自野生动物栖息地的图像和视频,帮助监测和保护濒危物种。它们识别并跟踪动物的 行为,提供有关其种群和活动的数据。该技术为保护老虎和大象等物种的保护策略和政策决策提供了依据。

借助视觉 AI,可以监测森林火灾和 毁林 等其他环境威胁,确保地方当局能够快速做出响应。

一张野火的卫星图像

图 6。野火的卫星图像。

Link to this section挑战与未来方向#

尽管它们已经取得了巨大的成就,但由于其极高的复杂性和开发过程的要求,视觉模型仍面临着许多挑战,需要持续的研究和未来的进步。

Link to this section可解释性和可说明性#

视觉模型,尤其是深度学习模型,通常被视为透明度有限的“黑匣子”。这是因为此类模型极其复杂。缺乏可解释性阻碍了信任和问责,特别是在医疗保健等关键应用中。

Link to this section计算要求#

训练和部署最先进的 AI 模型需要大量的计算资源。对于视觉模型而言尤其如此,它们通常需要处理大量的图像和视频数据。高清图像和视频作为最耗费数据的训练输入之一,增加了计算负担。例如,单张高清图像可能会占用数兆字节的存储空间,使得训练过程既耗资源又耗时。

这需要强大的硬件和优化的计算机视觉算法来处理开发有效视觉模型所涉及的海量数据和复杂计算。对更高效架构、模型压缩以及 GPU 和 TPU 等硬件加速器的研究是推动视觉模型未来的关键领域。

这些改进旨在降低计算需求并提高处理效率。此外,利用像 YOLOv8 这样的高级预训练模型可以显着减少对大量训练的需求,从而简化开发过程并提高效率。

Link to this section不断演变的格局#

如今,视觉模型的应用已十分广泛,从肿瘤检测等 医疗保健 应用到 交通监控 等日常用途。这些先进模型通过提供更高的准确性、效率和以前无法想象的能力,为无数行业带来了创新。

随着技术的不断进步,视觉模型在创新和改善生活及行业各个方面的潜力依然无限。这种持续的演变凸显了在计算机视觉领域进行持续研究和开发的重要性。

对视觉 AI 的未来感到好奇吗?欲了解有关最新进展的更多信息,请浏览 Ultralytics Docs,并查看其在 Ultralytics GitHubYOLOv8 GitHub 上的项目。此外,若想深入了解各行各业的 AI 应用,自动驾驶汽车制造业 的解决方案页面提供了特别有用的信息。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅