敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

探索计算机视觉的应用是如何工作的

Abirami Vina

5 分钟阅读

2024年8月9日

与我们一起深入了解计算机视觉的应用。我们还将介绍各种计算机视觉任务,如目标检测和分割。

当我们探索计算机视觉模型的历史时,我们了解了计算机视觉的演变历程,以及它如何发展到我们今天所拥有的先进视觉模型。Ultralytics YOLOv8等现代模型支持多种计算机视觉任务,并被应用于各种令人兴奋的场景中。 

在本文中,我们将了解计算机视觉和视觉模型的基础知识。我们将介绍它们的工作原理以及它们在各个行业中的多样化应用。计算机视觉创新无处不在,默默地塑造着我们的世界。让我们逐一揭开它们的面纱! 

什么是计算机视觉?

人工智能(AI)是一个总称,涵盖了许多旨在复制部分人类智能的技术。计算机视觉是人工智能的一个子领域,专注于赋予机器能够看到、观察和理解周围环境的眼睛。 

就像人类视觉一样,计算机视觉解决方案旨在区分物体、计算距离和检测运动。然而,与拥有终生经验来帮助他们观察和理解的人类不同,计算机依赖于大量的数据、高清摄像头和复杂的算法。 

图 1. 人类视觉与计算机视觉的比较。

计算机视觉系统能够以惊人的速度和准确性处理和分析图像和视频等视觉数据。快速准确地分析大量视觉信息的能力使计算机视觉成为各行各业的强大工具,从 制造业医疗保健业

视觉模型支持各种计算机视觉任务

计算机视觉模型是任何计算机视觉应用的核心。它们本质上是由深度学习技术驱动的计算算法,旨在使机器能够解释和理解视觉信息。视觉模型能够实现从图像分类目标检测等关键的计算机视觉任务。让我们更详细地了解其中的一些任务及其用例。 

图像分类

图像分类涉及将图像分类和标记为预定义的类别。像 YOLOv8 这样的视觉模型可以在大型数据集的标记图像上进行训练。在训练过程中,模型学习识别与每个类别相关的模式和特征。训练完成后,它可以通过分析新图像的特征并将其与学习到的模式进行比较来预测新图像的类别。 

图 2. 图像分类示例。(来源:towardsdatascience.com)

图像分类有不同的类型。例如,在处理医学图像时,您可以使用二元分类将图片分为两组,例如健康或患病。另一种类型是多类别分类。它可以帮助将图像分类为多个组,例如将农场上的不同动物分类,如猪、山羊和牛。或者,假设您想将动物分类为组和子组,例如将动物分类为哺乳动物和鸟类,然后进一步分类为狮子、老虎、鹰和麻雀等物种;分层分类将是最佳选择。

目标检测

物体检测是使用计算机视觉识别和定位图像和视频帧中的物体的过程。它包括两项任务:物体定位(在物体周围绘制边界框)和物体分类(识别每个物体的类别)。基于边界框标注,视觉模型可以学习识别特定于每个物体类别的模式和特征,并预测这些物体在新图像中(未见过的图像)的存在和位置。 

图 3. 使用 YOLOv8 目标检测来检测足球场上的球员。

物体检测在从体育到海洋生物学的不同行业中都有许多用例。例如,在零售业中,亚马逊的Just Walk Out技术使用物体检测来自动完成结账,方法是识别顾客拿起的商品。计算机视觉和传感器数据的结合使顾客能够拿起商品并离开,而无需排队等候。 

以下是其工作原理的详细介绍:

  • 安装在天花板上的摄像头捕捉顾客在商店内的移动,这些视频素材通过视觉模型进行实时处理。
  • 物体检测用于检测顾客拿起并放入购物篮中的确切产品,以便相应地更新他们的虚拟购物车。
  • 货架上的重量传感器通过检测物品的移除或更换来提高准确性。
  • 当顾客离开商店时,可以使用物体检测和 面部识别 技术来确认顾客已经离开,并且可以使用他们的付款详细信息(如信用卡)自动向他们收费。

语义分割和实例分割

语义分割和 实例分割 是计算机视觉任务,可帮助将图像划分为有意义的片段。语义分割根据像素的语义意义对像素进行分类,并将类别中的所有对象视为具有相同标签的单个实体。它适用于标记不可数对象(如“天空”或“海洋”)或集群(如“树叶”或“草”)。

另一方面,实例分割可以通过为每个检测到的对象分配唯一的标签来区分同一类别的不同实例。您可以使用实例分割来分割可数对象,其中对象的数量和独立性非常重要。它能够实现更精确的识别和区分。

图 4. 语义和实例分割的示例。

通过一个与自动驾驶汽车相关的例子,我们可以更清楚地理解语义分割和实例分割之间的对比。语义分割非常适合需要理解场景内容的任务,并且可以用于自动驾驶汽车中,以对道路上的特征(如人行横道和交通标志)进行分类。同时,实例分割可以用于自动驾驶汽车中,以区分单个行人、车辆和障碍物。 

姿态估计

姿势估计 是一项计算机视觉任务,专注于检测和跟踪图像或视频中物体姿势的关键点。 它最常用于人体姿势估计,关键点包括肩部和膝盖等区域。 估计人的姿势有助于我们理解和识别对于各种应用至关重要的动作和运动。

图 5. 使用 YOLOv8 进行姿态估计的示例。

姿态估计可用于体育运动中,分析运动员的动作。NBA 使用姿态估计来研究比赛期间球员的动作和位置。通过跟踪肩膀、肘部、膝盖和脚踝等关键点,姿态估计可以提供关于球员动作的详细见解。这些见解有助于教练制定更好的策略、优化训练计划,并在比赛期间进行实时调整。此外,这些数据还有助于监测球员的疲劳程度和受伤风险,从而提高球员的整体健康状况和表现。

定向边界框对象检测

定向边界框物体检测 (OBB) 使用旋转的矩形来精确识别和定位图像中的物体。 与与图像轴对齐的标准边界框不同,OBB 旋转以匹配物体的方向。 这使得它们对于非完全水平或垂直的物体特别有用。 它们非常擅长准确定位和隔离旋转的物体,以防止在拥挤的环境中发生重叠。

图 6. 使用 YOLOV8 在船只的航拍图像上进行定向边界框检测的示例。

海上监视中,识别和跟踪船只是安全和资源管理的关键。 OBB 检测可用于精确定位船舶,即使它们密集排列或以各种角度定向。 它有助于监控航运线路、管理海上交通和优化港口运营。 它还可以通过快速识别和评估飓风或石油泄漏等事件后船舶和基础设施的损坏来协助灾难响应。

目标跟踪

到目前为止,我们已经讨论了处理图像的计算机视觉任务。物体跟踪是一种计算机视觉任务,可以跟踪视频帧中的物体。它首先使用检测算法识别第一帧中的物体,然后连续跟踪其在视频中移动的位置。物体跟踪涉及物体检测、特征提取和运动预测等技术,以保持跟踪的准确性。

图 7. 使用 YOLOv8 跟踪鱼类。

YOLOv8 等视觉模型可用于追踪海洋生物中的鱼类。研究人员可以使用水下摄像机来监测鱼类在其自然栖息地中的运动和行为。该过程首先检测第一帧中的单个鱼类,然后跟踪它们在整个视频中的位置。追踪鱼类有助于科学家了解迁徙模式、社会行为以及与环境的相互作用。它还可以通过提供有关鱼类分布和数量的见解来支持可持续的捕捞方式。

计算机视觉的最后一看

计算机视觉正在积极地改变我们使用技术和与世界互动的方式。通过使用深度学习模型和复杂的算法来理解图像和视频,计算机视觉帮助各行各业简化许多流程。诸如目标检测和目标跟踪之类的计算机视觉任务,使得创建以前无法想象的解决方案成为可能。随着计算机视觉技术的不断改进,未来将会有更多创新应用! 

让我们一起学习和成长! 探索我们的 GitHub 存储库,了解我们对 AI 的贡献。 了解我们如何通过 AI 重新定义 自动驾驶汽车农业 等行业。 🚀

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板