深圳Yolo 视觉
深圳
立即加入

您需要了解的关于 2025 年计算机视觉的一切

Abirami Vina

5 分钟阅读

2025年1月15日

了解计算机视觉如何通过人工智能驱动的任务(如物体检测、图像分类和姿势估计 )改变各行各业。

二十年前,机器和计算机能够看到并理解世界还只是科幻小说中的想法。而今,得益于人工智能(AI)的进步,这个概念已成为现实。特别是计算机视觉(CV),作为人工智能的一个分支,使机器能够理解和分析图像及视频。无论是实时识别物体、改进安全系统,还是自动化复杂任务,它的潜力都在不断突破可能的界限。 

随着各行各业探索采用其独特能力的不同方式,计算机视觉正在迅速塑造技术的未来。全球计算机视觉技术市场规模在2024年达到198.3亿美元,预计未来几年将以每年19.8%的速度增长。

__wf_reserved_inherit
图1. 计算机视觉的全球市场规模。

在本文中,我们将更深入地了解计算机视觉,包括它是什么、它如何演变以及它今天如何运作。我们还将探索它的一些最有趣的应用。让我们开始吧!

什么是计算机视觉?

计算机视觉是人工智能的一个子领域,它利用机器学习和神经网络教计算机理解图像或视频文件等视觉数据的内容。从处理过的图像中收集到的见解可用于做出更好的决策。例如,计算机视觉可用于零售业,通过分析货架图像track 库存水平,或通过自动结账系统提升购物体验。许多企业已经将计算机视觉技术用于不同的应用领域,从为智能手机照片添加滤镜等任务到制造业的质量控制,不一而足。 

您可能想知道:为什么对计算机视觉解决方案有如此大的需求?对于需要持续关注的任务,例如发现缺陷或识别模式,对人类来说可能很困难。眼睛会疲劳,并且可能会错过细节,尤其是在快节奏或复杂的环境中。 

虽然人们善于识别不同大小、颜色、光线或角度的物体,但他们往往难以在压力下保持一致性。而计算机视觉解决方案则可以不间断地工作,快速准确地处理大量视觉数据。例如,它可以实时分析交通状况,detect 拥堵情况,优化信号配时,甚至比人类观察者更快地识别事故。

了解计算机视觉的历史

多年来,计算机视觉已经从一个理论概念发展成为一种可靠的技术,推动着各行各业的创新。让我们来看看定义其发展的一些关键里程碑:

  • 1950年代 - 1960年代: 研究人员开始开发算法来处理和分析视觉数据,但由于计算能力有限,进展缓慢。
  • 1970年代: 这十年见证了算法的重大改进,例如霍夫变换,它改进了图像中线条和几何形状的检测。光学字符识别(OCR)也出现了,使机器能够阅读印刷文本。
  • 1980年代 - 1990年代: 机器学习开始在计算机视觉中发挥作用,为更高级的功能和未来的突破铺平了道路。
  • 2000年代 - 2010年代: 深度学习为计算机视觉带来了新的维度,使机器能够更有效地解释视觉数据。它增强了诸如物体识别、运动分析和复杂任务执行等功能。

如今,计算机视觉技术发展迅速,改变了我们解决医疗保健、自动驾驶汽车和智能城市等领域问题的方式。Ultralytics YOLO (You Only Look Once)模型专为实时计算机视觉任务而设计,使各行各业更容易有效、准确地实施视觉人工智能。随着人工智能和硬件的不断改进,这些模型通过使用先进的视觉数据分析,帮助企业做出更明智的决策并简化运营。

分解计算机视觉的工作原理

计算机视觉系统通过使用神经网络(一种受人脑工作方式启发的算法)来分析图像。一种称为卷积神经网络(CNN)的特定类型,特别擅长识别模式,例如图片中的边缘和形状。 

为了简化视觉数据,汇集等技术将重点放在图像中最重要的部分,而附加层则处理这些信息,以执行识别特征或检测物体等任务。高级模型如 Ultralytics YOLO11等先进模型,实现了实时图像处理的速度和准确性。

__wf_reserved_inherit
图 2.使用Ultralytics YOLO11 进行物体检测的示例。

一个典型的计算机视觉应用涉及多个步骤,将原始图像转换为有用的见解。以下是四个主要阶段:

  • 图像采集:使用相机或传感器收集视觉数据,图像的质量取决于所用传感器的类型。
  • 图像处理:然后通过预处理技术(如减少噪声和突出边缘)来增强收集到的数据,使其更易于分析。
  • 特征提取:挑选出重要的细节,如形状和纹理,重点关注图像中最重要的部分。  
  • 模式识别:使用机器学习分析识别出的特征,以完成诸如检测对象、跟踪运动或识别模式之类的任务。

探索计算机视觉任务

您可能已经注意到,在谈到计算机视觉如何工作时,我们提到了计算机视觉任务。Ultralytics YOLO11 等模型就是为支持这些任务而构建的,为现实世界的应用提供了快速、准确的解决方案。从检测物体到跟踪物体运动,YOLO11 都能高效地处理这些任务。让我们来探讨它所支持的一些关键计算机视觉任务及其工作原理。

目标检测

目标检测是一项关键的计算机视觉任务,用于识别图像中感兴趣的物体。目标检测任务的输出是一组边界框(在图像中检测到的物体周围绘制的矩形),以及类别标签(每个物体的类别或类型,例如“汽车”或“人”)和置信度分数(一个数值,表示模型对每次检测的确定程度)。例如,目标检测可用于识别和精确定位街道上的行人或交通中的汽车。

__wf_reserved_inherit
图 3.用于detect 物体的YOLO11 。

图像分类

图像分类的主要目标是根据输入图像的整体内容为其分配一个预定义的标签或类别。这项任务通常涉及识别图像中的主要对象或特征。例如,图像分类可用于确定图像中包含的是猫还是狗。如下图所示,YOLO11 等计算机视觉模型甚至可以进行定制训练,以对猫或狗的各个品种进行classify 。

__wf_reserved_inherit
图 4.使用YOLO11 对不同品种的猫进行分类。

实例分割

实例分割是另一种在各种应用中使用的关键计算机视觉任务。它涉及将图像分解为多个片段,并识别每个单独的物体,即使有多个相同类型的物体也是如此。与目标检测不同,实例分割更进一步,它会勾勒出每个物体的精确边界。例如,在汽车制造和维修中,实例分割可以帮助单独识别和标记每个汽车零件,从而使过程更加准确和高效。

__wf_reserved_inherit
图 5.使用YOLO11 对汽车部件进行分割。

姿势估计

姿势估计 目的是通过预测手、头和肘等关键点的位置来确定人或物体的位置和方向。这在需要实时了解物理动作的应用中尤其有用。人体姿势估计 估计常用于体育分析、动物行为监测和机器人等领域。

__wf_reserved_inherit
图 6. YOLO11 可以帮助人类姿势估计 。

要了解YOLO11 支持的其他计算机视觉任务,您可以参阅 Ultralytics 官方文档。它详细介绍了YOLO11 如何处理对象跟踪和定向边界框旋转框检测)对象检测等任务。

当今流行的计算机视觉模型

尽管有许多计算机视觉模型,但Ultralytics YOLO 系列以其强大的性能和多功能性脱颖而出。随着时间的推移,Ultralytics YOLO 型号不断改进,变得更快、更准确,能够处理更多任务。当 Ultralytics YOLOv5推出时,使用PyTorch 等 Vision AI 框架部署模型变得更加容易。它让更多用户能够使用先进的视觉人工智能,将高精度和易用性结合起来。

下一个 Ultralytics YOLOv8更进一步,增加了实例分割、姿势估计 和图像分类等新功能。同时,最新版本的YOLO11 在多项计算机视觉任务中表现出色。与YOLOv8m 相比,YOLO11m 的参数减少了 22%,在COCO 数据集上实现了更高的平均精度mAP),这意味着它可以更精确、更高效地detect 物体。无论您是经验丰富的开发人员还是人工智能新手,YOLO11 都能为您的计算机视觉需求提供强大的解决方案。

计算机视觉在日常生活中的作用

前面,我们讨论了像YOLO11 这样的计算机视觉模型如何应用于各行各业。现在,让我们来探讨更多改变我们日常生活的用例。

医疗保健领域的视觉 AI

计算机视觉在医疗保健领域存在广泛的应用。目标检测和分类等任务用于医学成像,以加快疾病检测速度并提高其准确性。在 X 射线分析中,计算机视觉可以识别肉眼可能难以察觉的模式。 

它还用于癌症检测,以比较癌细胞和健康细胞。同样,对于 CT 扫描和 MRI,计算机视觉可用于以接近人类的准确度分析图像。它有助于医生做出更好的决策,并最终挽救更多生命。

__wf_reserved_inherit
图 7.用于分析医学扫描的YOLO11 。

汽车行业的 AI

计算机视觉对自动驾驶汽车至关重要,它可以帮助汽车detect 路标和交通信号灯等物体。光学字符识别(OCR)等技术使汽车能够读取路标上的文字。计算机视觉还可用于行人检测,通过物体检测任务实时识别行人。 

最重要的是,计算机视觉甚至可以发现路面上的裂缝和坑洼,从而更好地监测不断变化的道路状况。总的来说,计算机视觉技术可以在改善交通管理、提高交通安全和支持智慧城市规划方面发挥关键作用。

__wf_reserved_inherit
图 8.使用YOLO11 了解流量。

农业领域的计算机视觉

比方说,农民可以自动播种、浇水,并按时收获庄稼,没有任何后顾之忧。这正是计算机视觉给农业带来的好处。它有助于对作物进行实时监控,这样农民就能比人类更准确地detect 疾病或营养缺乏等问题。 

除了监测之外,与计算机视觉集成的 AI 驱动的自动除草机可以识别并清除杂草,从而降低劳动力成本并提高作物产量。这种技术结合有助于农民优化资源、提高效率并保护他们的作物。

__wf_reserved_inherit
图 9.在农业中使用YOLO11 的示例。

利用 AI 实现制造流程自动化

在制造业,计算机视觉有助于监控生产、检查产品质量并自动track 工人。人工智能视觉技术可使生产过程更快、更准确,同时减少错误,从而降低成本。 

具体来说,质量保证通常使用对象检测和实例分割。缺陷检测系统对成品进行最后检查,以确保只有最好的产品才能送到客户手中。任何有凹痕或裂纹的产品都会被自动识别并剔除。这些系统还能对产品进行实时track 和计数,对装配线进行持续监控。

__wf_reserved_inherit
图 10. 使用计算机视觉监控装配线。

通过计算机视觉让教育更具影响力

计算机视觉在课堂上的应用方式之一是手势识别--通过检测学生的动作实现个性化学习。像YOLO11 这样的模型非常适合这项任务。它们可以实时准确地识别举手或困惑表情等手势。 

当检测到此类手势时,可以通过提供额外帮助或修改内容以更好地适应学生的需求来调整正在进行的课程。这创造了一个更具活力和适应性的学习环境,帮助教师专注于教学,同时系统支持每个学生的学习体验。

计算机视觉的最新趋势

现在我们已经探讨了计算机视觉在各个行业的应用,接下来让我们深入了解推动其发展的关键趋势。

其中一个主要趋势是 边缘计算,这是一种分布式计算框架,可在更接近数据源的位置处理数据。例如,边缘计算使相机和传感器等设备能够直接处理视觉数据,从而缩短响应时间、减少延迟并提高隐私。

计算机视觉的另一个关键趋势是混合现实的使用。它将物理世界与数字元素相结合,利用计算机视觉使虚拟对象与现实世界无缝融合。它可用于改善游戏、教育和培训体验。 

计算机视觉的优点和缺点

以下是计算机视觉可以为各个行业带来的一些主要优势:

  • 节省成本:通过计算机视觉实现任务自动化有助于降低运营成本、提高生产力并最大限度地减少错误。
  • 可扩展性:一旦实施,计算机视觉系统可以轻松扩展以处理大量数据,使其适合成长型企业或大规模运营。
  • 特定于应用程序的定制:可以使用您的数据集对计算机视觉模型进行微调,从而为您提供高度专业化的解决方案,以满足您的应用程序的需求。

虽然这些优势突出了计算机视觉如何影响各个行业,但重要的是也要考虑其实现所涉及的挑战。以下是一些主要挑战:

  • 数据隐私问题:视觉数据的使用,尤其是在监控或医疗保健等敏感领域,可能会引发隐私问题和安全问题。
  • 环境限制:计算机视觉系统可能难以在具有挑战性的环境中正常运行,例如光线不足、图像质量低或背景复杂。
  • 高昂的初始成本:由于需要专门的硬件、软件和专业知识开发和实施计算机视觉系统可能非常昂贵。

主要要点

计算机视觉正在通过让机器像人类一样看到和理解世界来重塑机器与世界交互的方式。它已被用于许多领域,例如提高自动驾驶汽车的安全性、帮助医生更快地诊断疾病、使购物更加个性化,甚至帮助农民进行作物监测。 

随着技术不断进步,边缘计算和混合现实等新趋势正在开辟更多可能性。虽然存在一些挑战,例如偏差和高成本,但计算机视觉有潜力在未来对许多行业产生巨大的积极影响。

要了解更多信息,请访问我们的 GitHub 仓库 并与我们的 社区 互动。在我们的解决方案页面上,探索 自动驾驶汽车中的人工智能农业中的计算机视觉 等领域的创新。🚀

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始