探索计算机视觉的应用是如何运作的
与我们深入探讨计算机视觉的应用。我们还将详细讲解目标检测和分割等各种计算机视觉任务。

当我们探索 计算机视觉模型的历史 时,我们了解了计算机视觉的发展历程,以及如何演进到如今这些先进的视觉模型。像 Ultralytics YOLOv8 这样的现代模型支持多种 计算机视觉任务,并被应用于各种令人兴奋的领域。
在本文中,我们将深入了解计算机视觉和视觉模型的基础知识。我们将探讨它们的工作原理及其在各行各业中的多元化应用。计算机视觉创新无处不在,正在悄然改变我们的世界。让我们逐一揭开它们的奥秘!
Link to this section什么是计算机视觉?#
人工智能 (AI) 是一个涵盖广泛技术的总称,旨在复制人类智慧的部分功能。计算机视觉正是人工智能的一个子领域。它专注于赋予机器“眼睛”,使其能够看见、观察并理解周围的环境。
就像人类视觉一样,计算机视觉解决方案旨在区分物体、计算距离并检测运动。然而,人类拥有终身的经验来帮助我们观察和理解世界,而计算机则依赖海量的数据、高分辨率摄像头和复杂的算法。

图 1. 人类视觉与计算机视觉的比较。
计算机视觉系统能够以惊人的速度和精度处理及分析图像和视频等视觉数据。能够快速、准确地分析海量视觉信息,使计算机视觉成为从 制造业 到 医疗保健 等多个行业中的强大工具。
Link to this section视觉模型支持多种计算机视觉任务#
计算机视觉模型是任何计算机视觉应用的核心。它们本质上是由深度学习技术驱动的计算算法,旨在赋予机器解释和理解视觉信息的能力。视觉模型支持各种关键的计算机视觉任务,从 图像分类 到 目标检测。让我们更详细地了解其中一些任务及其应用场景。
Link to this section图像分类#
图像分类 涉及将图像归类并标记到预定义的类或类别中。像 YOLOv8 这样的视觉模型可以基于标记图像的大型 数据集 进行训练。在训练过程中,模型会学习识别与每个类别相关的模式和特征。训练完成后,它就能通过分析特征并将其与学到的模式进行比较,从而预测出新图像(未见过的图像)的类别。

图 2. 图像分类示例。(来源:towardsdatascience.com)
图像分类有多种类型。例如,在处理 医学图像 时,你可以使用二分类将图片分为两组,例如健康或患病。另一种类型是多分类,它可以帮助将图像分类到多个组中,比如 对农场里的不同动物进行分类,如猪、山羊和牛。又或者,假设你想将动物分为组和子组,例如先将动物分为哺乳动物和鸟类,然后再进一步细分为狮子、老虎、老鹰和麻雀等物种,层次分类将是最佳选择。
Link to this section目标检测#
目标检测是通过计算机视觉识别和定位图像及视频帧中物体的过程。它包含两个任务:目标定位(在物体周围绘制边界框)和目标分类(识别每个物体的类别)。基于边界框标注,视觉模型可以学习识别特定于每个物体类别的模式和特征,并预测新图像中这些物体的存在位置。

图 3. YOLOv8 目标检测被用于检测足球场上的球员。
目标检测在各行各业中有着广泛的应用,从 体育 到海洋生物学。例如,在 零售业,亚马逊的 Just Walk Out 技术利用目标检测来识别顾客拿取的商品,从而实现自动化结账。计算机视觉与传感器数据的结合,让顾客可以取走商品后直接离开,无需排队等待。
以下是其工作原理的详细说明:
- 安装在天花板上的摄像头捕捉顾客在店内走动的画面,这些视频片段由视觉模型进行实时处理。
- 目标检测用于检测顾客拿取并放入购物篮的确切产品,从而相应地更新他们的虚拟购物车。
- 货架上的重量传感器通过检测商品的移走或放回,进一步提高了准确性。
- 当顾客离开商店时,目标检测和 面部识别 技术可用于确认顾客已经离店,并使用其支付详细信息(如信用卡)进行自动扣款。
Link to this section语义分割与实例分割#
语义分割和 实例分割 是将图像划分成有意义部分的计算机视觉任务。语义分割根据像素的语义含义进行分类,并将同一类别内的所有物体视为带有相同标签的单个实体。它适用于标记不可数的物体,如“天空”或“海洋”,或者成簇的对象,如“树叶”或“草地”。
另一方面,实例分割可以通过为每个检测到的物体分配唯一标签来区分同一类别的不同个体。你可以利用实例分割来对可数物体进行分割,即物体的数量和独立性非常重要时。它能够实现更精确的识别和区分。

图 4. 语义分割与实例分割示例。
我们可以通过与 自动驾驶汽车 相关的一个例子来更清晰地理解语义分割和实例分割之间的对比。语义分割非常适合需要理解场景内容的任务,可用于自动驾驶车辆中对道路特征(如人行横道和交通标志)进行分类。与此同时,实例分割可用于自动驾驶车辆中,以区分单个行人、车辆和障碍物。
Link to this section姿态估计#
姿态估计 是一项专注于检测和跟踪图像或视频中物体姿态关键点的计算机视觉任务。它最常用于人体姿态估计,关键点包括肩膀和膝盖等部位。估计人体姿态有助于我们理解和识别对于各种应用至关重要的动作和运动。

图 5. 使用 YOLOv8 的姿态估计示例。
姿态估计可用于体育领域以分析运动员的运动方式。NBA 使用姿态估计来研究球员在比赛中的移动和位置。通过跟踪肩膀、肘部、膝盖和脚踝等关键点,姿态估计为球员的运动提供了详细的见解。这些洞察有助于教练制定更好的策略、优化训练计划,并在比赛中进行实时调整。此外,这些数据还有助于监测球员的疲劳程度和受伤风险,从而提升球员的整体健康水平和表现。
Link to this section旋转边界框目标检测#
旋转边界框目标检测 (OBB) 使用旋转的矩形来精确识别和定位图像中的物体。与对齐图像坐标轴的标准边界框不同,OBB 会旋转以匹配物体的方向。这使得它们对于那些非完全水平或垂直的物体特别有用。它们非常擅长精确定位和隔离旋转物体,以防止在拥挤的环境中出现重叠。

图 6. 使用 YOLOv8 在船只航拍图像上进行旋转边界框检测的示例。
在 海事 监视中,识别和跟踪船只对于安全和资源管理至关重要。OBB 检测可用于精确的船只定位,即使在船只密集或以不同角度停放时也是如此。它有助于监控航道、管理海上交通并优化港口运营。它还可以在灾后响应中发挥作用,通过在飓风或 石油泄漏 等事件后快速识别和评估对船舶和基础设施的损坏情况来提供协助。
Link to this section目标跟踪#
到目前为止,我们讨论的计算机视觉任务主要处理图像。目标跟踪 是另一种计算机视觉任务,它能够跟踪视频帧中物体的移动。它首先使用检测算法在第一帧中识别物体,然后随着物体在视频中的移动持续跟随其位置。目标跟踪结合了目标检测、特征提取和运动预测等技术,以保持跟踪的准确性。

图 7. 使用 YOLOv8 跟踪鱼类。
像 YOLOv8 这样的视觉模型可以用于 海洋生物学中鱼类的跟踪。通过使用水下摄像机,研究人员可以监测鱼类在其自然栖息地中的移动和行为。该过程首先在起始帧中检测个体鱼类,然后跟踪它们在整个视频中的位置。跟踪鱼类有助于科学家了解迁徙模式、社会行为以及它们与环境的相互作用。这也通过提供关于鱼类分布和数量的见解,为可持续捕捞实践提供支持。
Link to this section计算机视觉的终极展望#
计算机视觉正在积极改变我们使用技术和与世界互动的方式。通过利用深度学习模型和复杂算法来理解图像和视频,计算机视觉正在帮助各行各业简化诸多流程。诸如目标检测和目标跟踪之类的计算机视觉任务,使得创建前所未有的解决方案成为可能。随着计算机视觉技术的不断进步,未来将涌现出更多创新的应用!
让我们一起学习和成长!浏览我们的 GitHub 仓库 以查看我们对 AI 的贡献。看看我们如何用 AI 重新定义自动驾驶汽车和农业等行业。🚀






