了解计算机视觉如何通过对象检测、图像分类和姿势估计等 AI 驱动的任务来改变行业。
%252525202.webp)
了解计算机视觉如何通过对象检测、图像分类和姿势估计等 AI 驱动的任务来改变行业。
二十年前,机器和计算机能够看到并理解世界还只是科幻小说中的想法。而今,得益于人工智能(AI)的进步,这个概念已成为现实。特别是计算机视觉(CV),作为人工智能的一个分支,使机器能够理解和分析图像及视频。无论是实时识别物体、改进安全系统,还是自动化复杂任务,它的潜力都在不断突破可能的界限。
随着各行各业探索采用其独特能力的不同方式,计算机视觉正在迅速塑造技术的未来。全球计算机视觉技术市场规模在2024年达到198.3亿美元,预计未来几年将以每年19.8%的速度增长。
在本文中,我们将更深入地了解计算机视觉,包括它是什么、它如何演变以及它今天如何运作。我们还将探索它的一些最有趣的应用。让我们开始吧!
计算机视觉是人工智能的一个子领域,它利用机器学习和神经网络来教导计算机理解视觉数据的内容,例如图像或视频文件。从处理后的图像中收集的见解可用于做出更好的决策。例如,计算机视觉可用于零售业,通过分析货架图像来跟踪库存水平,或通过自动化结账系统来增强购物体验。许多企业已经将计算机视觉技术用于不同的应用,范围从为智能手机照片添加滤镜到制造业中的质量控制。
您可能想知道:为什么对计算机视觉解决方案有如此大的需求?对于需要持续关注的任务,例如发现缺陷或识别模式,对人类来说可能很困难。眼睛会疲劳,并且可能会错过细节,尤其是在快节奏或复杂的环境中。
虽然人们擅长识别不同大小、颜色、光照或角度的物体,但他们经常难以在压力下保持一致性。另一方面,计算机视觉解决方案可以不间断地工作,快速准确地处理大量视觉数据。例如,它可以实时分析交通状况以检测拥堵、优化信号配时,甚至比人类观察员更快地识别事故。
多年来,计算机视觉已经从一个理论概念发展成为一种可靠的技术,推动着各行各业的创新。让我们来看看定义其发展的一些关键里程碑:
如今,计算机视觉正在快速发展,并改变着我们解决医疗保健、自动驾驶汽车和智慧城市等领域问题的方式。Ultralytics YOLO (You Only Look Once) 模型专为实时计算机视觉任务而设计,使跨各个行业有效且准确地实施视觉人工智能变得更加容易。随着人工智能和硬件的不断改进,这些模型正在帮助企业通过使用先进的视觉数据分析来做出更明智的决策并简化运营。
计算机视觉系统通过使用神经网络(一种受人脑工作方式启发的算法)来分析图像。一种称为卷积神经网络(CNN)的特定类型,特别擅长识别模式,例如图片中的边缘和形状。
为了简化视觉数据,诸如池化之类的技术侧重于图像的最重要部分,而附加层处理此信息以执行诸如识别特征或检测对象之类的任务。诸如Ultralytics YOLO11之类的高级模型专为速度和准确性而设计,使实时图像处理成为可能。
一个典型的计算机视觉应用涉及多个步骤,将原始图像转换为有用的见解。以下是四个主要阶段:
您可能已经注意到,在讨论计算机视觉的工作原理时,我们提到了计算机视觉任务。像 Ultralytics YOLO11 这样的模型就是为了支持这些任务而构建的,为实际应用提供快速而准确的解决方案。从检测物体到跟踪它们的运动,YOLO11 都能高效地处理这些任务。让我们来探索它所支持的一些关键计算机视觉任务以及它们的工作原理。
目标检测是一项关键的计算机视觉任务,用于识别图像中感兴趣的物体。目标检测任务的输出是一组边界框(在图像中检测到的物体周围绘制的矩形),以及类别标签(每个物体的类别或类型,例如“汽车”或“人”)和置信度分数(一个数值,表示模型对每次检测的确定程度)。例如,目标检测可用于识别和精确定位街道上的行人或交通中的汽车。
图像分类的主要目标是根据输入图像的整体内容,为其分配一个预定义的标签或类别。此任务通常涉及识别图像中的主要物体或特征。例如,图像分类可用于确定图像是否包含猫或狗。像 YOLO11 这样的计算机视觉模型甚至可以进行自定义训练,以对猫或狗的各个品种进行分类,如下所示。
实例分割是另一种在各种应用中使用的关键计算机视觉任务。它涉及将图像分解为多个片段,并识别每个单独的物体,即使有多个相同类型的物体也是如此。与目标检测不同,实例分割更进一步,它会勾勒出每个物体的精确边界。例如,在汽车制造和维修中,实例分割可以帮助单独识别和标记每个汽车零件,从而使过程更加准确和高效。
姿态估计的目标是通过预测关键点(例如手、头部和肘部)的位置来确定人或物体的位置和方向。这在需要实时了解物理动作的应用中特别有用。人体姿态估计通常用于体育分析、动物行为监测和机器人等领域。
要探索 YOLO11 支持的其他计算机视觉任务,您可以参考Ultralytics 官方文档。它提供了有关 YOLO11 如何处理目标跟踪和定向边界框 (OBB) 目标检测等任务的详细信息。
尽管市面上有很多计算机视觉模型,但 Ultralytics YOLO 系列以其强大的性能和多功能性而脱颖而出。随着时间的推移,Ultralytics YOLO 模型不断改进,变得更快、更准确,并且能够处理更多任务。当Ultralytics YOLOv5推出时,借助 PyTorch 等视觉 AI 框架,模型的部署变得更加容易。它让更广泛的用户可以使用先进的视觉 AI,将高精度与易用性相结合。
接下来,Ultralytics YOLOv8通过添加实例分割、姿态估计和图像分类等新功能,使事情更进一步。同时,最新版本 YOLO11 在多个计算机视觉任务中提供最佳性能。YOLO11m 的参数比 YOLOv8m 少 22%,但在 COCO 数据集上实现了更高的平均精度均值 (mAP),这意味着它可以更精确、更高效地检测物体。无论您是经验丰富的开发人员还是 AI 新手,YOLO11 都能为您的计算机视觉需求提供强大的解决方案。
前面,我们讨论了像 YOLO11 这样的计算机视觉模型如何在广泛的行业中应用。现在,让我们探索更多正在改变我们日常生活的用例。
计算机视觉在医疗保健领域存在广泛的应用。目标检测和分类等任务用于医学成像,以加快疾病检测速度并提高其准确性。在 X 射线分析中,计算机视觉可以识别肉眼可能难以察觉的模式。
它还用于癌症检测,以比较癌细胞和健康细胞。同样,对于 CT 扫描和 MRI,计算机视觉可用于以接近人类的准确度分析图像。它有助于医生做出更好的决策,并最终挽救更多生命。
计算机视觉对于自动驾驶汽车至关重要,它可以帮助它们检测道路标志和交通信号灯等物体。诸如光学字符识别 (OCR)之类的技术使汽车能够读取道路标志上的文本。它还用于行人检测,其中目标检测任务可以实时识别人员。
最重要的是,计算机视觉甚至可以发现路面上的裂缝和坑洼,从而更好地监测不断变化的道路状况。总的来说,计算机视觉技术可以在改善交通管理、提高交通安全和支持智慧城市规划方面发挥关键作用。
试想一下,如果农民可以自动、准时地播种、浇水和收割庄稼,而无需任何担忧。这正是 计算机视觉为农业带来的变革。它促进了实时作物监测,使农民能够比人类更准确地发现疾病或营养不足等问题。
除了监测之外,与计算机视觉集成的 AI 驱动的自动除草机可以识别并清除杂草,从而降低劳动力成本并提高作物产量。这种技术结合有助于农民优化资源、提高效率并保护他们的作物。
在制造业中,计算机视觉有助于自动监控生产、检查产品质量和跟踪工人。视觉 AI 使流程更快、更准确,同时减少错误,从而降低成本。
具体而言,在质量保证方面,通常使用目标检测和实例分割。缺陷检测系统对成品进行最终检查,以确保只有最好的产品才能到达客户手中。任何有凹痕或裂缝的产品都会被自动识别和拒绝。这些系统还会实时跟踪和计数产品,从而在装配线上提供持续监控。
计算机视觉在课堂中的一种应用是通过手势识别——它通过检测学生的动作来个性化学习。YOLO11 等模型非常适合这项任务。它们可以准确地实时识别举手或困惑的表情等手势。
当检测到此类手势时,可以通过提供额外帮助或修改内容以更好地适应学生的需求来调整正在进行的课程。这创造了一个更具活力和适应性的学习环境,帮助教师专注于教学,同时系统支持每个学生的学习体验。
现在我们已经探讨了计算机视觉在各个行业的应用,接下来让我们深入了解推动其发展的关键趋势。
其中一个主要趋势是 边缘计算,这是一种分布式计算框架,可在更接近数据源的位置处理数据。例如,边缘计算使相机和传感器等设备能够直接处理视觉数据,从而缩短响应时间、减少延迟并提高隐私。
计算机视觉的另一个关键趋势是混合现实的使用。它将物理世界与数字元素相结合,利用计算机视觉使虚拟对象与现实世界无缝融合。它可用于改善游戏、教育和培训体验。
以下是计算机视觉可以为各个行业带来的一些主要优势:
虽然这些优势突出了计算机视觉如何影响各个行业,但重要的是也要考虑其实现所涉及的挑战。以下是一些主要挑战:
计算机视觉正在通过让机器像人类一样看到和理解世界来重塑机器与世界交互的方式。它已被用于许多领域,例如提高自动驾驶汽车的安全性、帮助医生更快地诊断疾病、使购物更加个性化,甚至帮助农民进行作物监测。
随着技术不断进步,边缘计算和混合现实等新趋势正在开辟更多可能性。虽然存在一些挑战,例如偏差和高成本,但计算机视觉有潜力在未来对许多行业产生巨大的积极影响。
要了解更多信息,请访问我们的 GitHub 仓库 并与我们的 社区 互动。在我们的解决方案页面上,探索 自动驾驶汽车中的人工智能 和 农业中的计算机视觉 等领域的创新。🚀