深圳Yolo 视觉
深圳
立即加入

您需要了解的关于计算机视觉任务的所有信息

Abirami Vina

4 分钟阅读

2025年4月16日

了解对象跟踪、实例分割和图像分类等计算机视觉任务的工作原理,以及Ultralytics YOLO11 如何支持这些任务。

得益于摄像头和人工智能(AI)的进步,计算机和机器现在能够以与人类相似的方式观察世界。例如,它们可以识别人、track 物体,甚至理解视频中发生的事情的背景。

具体来说,计算机视觉是人工智能的一个分支,它使机器能够理解和解释周围世界的视觉信息。计算机视觉涉及多种任务,每种任务都旨在从图像或视频中提取特定的洞察力。例如,物体检测有助于识别和定位图片中的不同物品,而跟踪、分割和姿势估计 等其他任务则有助于机器更准确地理解运动、形状和位置。

用于特定应用的计算机视觉任务取决于您所需的洞察力类型。计算机视觉模型如 Ultralytics YOLO11等计算机视觉模型支持各种计算机视觉任务,是构建真实世界视觉人工智能系统的可靠选择。

在本指南中,我们将仔细研究YOLO11 等模型所支持的计算机视觉任务。我们将探讨每项任务的工作原理以及它们在不同行业中的应用。让我们开始吧!

什么是计算机视觉任务?

计算机视觉任务旨在以不同方式复制人类的视觉能力。这些任务可以帮助机器detect 物体、track 物体运动、估计物体姿态,甚至勾勒出图像和视频中的单个元素。通常情况下,计算机视觉任务是通过将视觉数据分解成更小部分的模型来实现的,这样它们就能更清晰地解释正在发生的事情。 

视觉人工智能模型(如Ultralytics YOLO 模型)在一个框架内支持多种任务,如检测、跟踪和分割。由于这种多功能性,YOLO11 模型很容易被广泛应用。

__wf_reserved_inherit
图 1.YOLO11 支持的计算机视觉任务。

体育分析就是一个很好的例子。YOLO11 可以通过物体检测来detect 场上的每一名球员,然后通过物体追踪来跟踪他们的整个比赛过程。同时,YOLO11 的姿势估计 功能可以帮助分析球员的动作和技术,而实例分割则可以将每个球员从背景中分离出来,从而提高分析的精确度。 

这些YOLO11计算机视觉任务共同创建了游戏过程中发生的完整画面,让团队更深入地了解球员表现、战术和整体战略。

YOLO11支持的计算机视觉任务概览YOLO11

既然我们已经了解了什么是计算机视觉任务,下面就让我们通过真实世界中的示例,更详细地了解YOLO11 支持的每一项任务。

YOLO11对图像分类的支持

当你看一张照片时,大多数人都能轻易分辨出照片上是一只狗、一座山还是一个交通标志,因为我们都知道这些东西通常是什么样子的。图像分类通过教会机器如何根据图像的主要对象(是 "汽车"、"香蕉 "还是 "骨折的 X 光片")对图像进行classify 和标记,帮助机器做到这一点。这种标签可以帮助计算机视觉系统理解视觉内容,从而做出相应的反应或决策。

这项计算机视觉任务的一个有趣应用是野生动物监测。图像分类可用于从野外拍摄的照片中识别不同的动物物种。通过自动标记图像,研究人员可以track 种群数量、监测迁徙模式,并更容易地识别濒危物种,从而为保护工作提供支持。

__wf_reserved_inherit
图 2.使用YOLO11 进行图像分类的示例。

YOLO11的物体探测功能

虽然图像分类有助于获得图像内容的总体概念,但它仅为整个图像分配一个标签。在需要详细信息(例如多个对象的精确位置和身份)的情况下,目标检测至关重要。

物体检测是在图像中识别和定位单个物体的过程,通常是在物体周围绘制边界框。Ultralytics YOLO11 在实时物体检测方面表现尤为出色,是各种应用的理想之选。

例如,零售商店中用于货架补货的计算机视觉解决方案。目标检测可以帮助清点水果、蔬菜和其他物品,确保库存准确。在农田中,相同的技术可以监测作物成熟度,帮助农民确定最佳收获时间,甚至可以区分成熟和未成熟的农产品。

__wf_reserved_inherit
图 3.使用Ultralytics YOLO11 检测水果。

使用YOLO11 进行实例分割

目标检测使用边界框来识别和定位图像中的目标,但它无法捕获目标的精确形状。这就是 实例分割 的用武之地。实例分割不是在目标周围绘制一个框,而是描绘出其精确的轮廓。

您可以这样理解:它不仅仅是简单地指示“这个区域里有一个苹果”,而是仔细地勾勒并填充苹果的确切形状。这种详细的过程有助于 AI 系统清楚地理解物体的边界,尤其是在物体彼此靠近时。

实例分割可应用于从基础设施检测到地质勘测等许多领域。例如,可以使用YOLO11 对地质勘测的数据进行分析,以segment 大大小小的表面裂缝或异常。通过在这些异常周围绘制精确的边界,工程师可以在项目开始前找出问题并加以解决。 

__wf_reserved_inherit
图 4.YOLO11裂缝分割。

物体跟踪:使用YOLO11跨帧跟踪物体

到目前为止,我们所看到的计算机视觉任务都侧重于单个图像中的内容。但是,对于视频,我们需要超越单帧的洞察力。目标跟踪任务可用于此目的。

YOLO11 的物体跟踪功能可以跟踪特定物体(如人或车)在一系列视频帧中的移动。即使摄像机角度发生变化或出现其他物体,系统也会继续跟踪同一目标。 

这对于需要长期监控的应用(如跟踪交通中的汽车)来说至关重要。事实上,YOLO11 可以准确track 车辆,跟踪每辆车,帮助实时估算其速度。这使得物体跟踪成为交通监控等系统的关键组成部分。

__wf_reserved_inherit
图 5. YOLO11对物体跟踪的支持可用于速度估算。

使用YOLO11检测定向边界框旋转框检测

现实世界中的物体并不总是完全对齐的——它们可能是倾斜的、侧向的或以奇怪的角度定位的。例如,在卫星图像中,船舶和建筑物通常会显示为旋转的。 

传统的物体检测方法使用固定的矩形框,不能根据物体的方向进行调整,因此很难准确捕捉这些旋转的形状。旋转框检测(Oriented bounding box)通过使用可旋转的框来解决这一问题,这些框可紧紧围绕物体旋转,并与物体的角度保持一致,从而实现更精确的检测。

在港口监控方面,YOLO11对旋转框检测 的支持可帮助准确识别和track 船只,无论其朝向如何,从而确保每艘进出港口的船只都受到正确监控。这种精确的检测可提供有关船只位置和移动的实时信息,这对于管理繁忙的港口和防止碰撞至关重要。

__wf_reserved_inherit
图 6.使用旋转框检测 和YOLO11 检测船只。

姿势估计和YOLO11:跟踪要点 

姿势估计是一种计算机视觉技术,通过跟踪关键点(如关节、肢体或其他标记)来了解物体的运动方式。这种方法不是将整个物体或身体视为一个完整的单元,而是将其分解为关键部分。这样就可以对动作、手势和互动进行详细分析。

这项技术的一个常见应用是人体姿势估计 。通过实时跟踪身体各部位的位置,可以清晰地了解人的运动情况。这些信息可用于多种用途,从手势识别、活动监测到运动表现分析。 

同样,在物理康复中,治疗师可以使用人体姿势估计 和YOLO11 来监测患者在锻炼过程中的动作。这有助于确保每个动作都做得正确,同时随着时间的推移跟踪进展情况。

__wf_reserved_inherit
图 7. YOLO11 可以使用姿势估计 来监控锻炼。

探索YOLO11 如何支持各种计算机视觉任务

在详细了解了YOLO11 支持的所有计算机视觉任务之后,让我们来看看YOLO11 是如何支持这些任务的。 

YOLO11 不仅仅是一个模型,它还是一套专门的模型变体,每个变体都是为特定的计算机视觉任务而设计的。这使得YOLO11 成为一个多功能工具,可以适用于广泛的应用。您还可以在自定义数据集上对这些模型进行微调,以应对项目中的独特挑战。

以下是针对特定视觉任务预先训练的YOLO11 模型变体

  • YOLO11:该机型可实时检测和标记多个物体,是高速视觉识别的理想选择。

  • YOLO11:这一变体的重点是通过使用详细的遮罩将物体从背景中分离出来,从而进行分割。

  • YOLO11-旋转框检测:该模型旨在通过绘制与每个物体方向一致的边界框来detect 旋转物体。

  • YOLO11:该变体根据整体内容分配单一类别标签,从而对图像进行分类。

  • YOLO11-姿势估计:该模型可估算身体上的关键点,以track 姿势、肢体位置和运动。

每个变体都有不同的尺寸可供选择,允许用户根据其特定需求选择速度和准确性之间的适当平衡。

主要要点

计算机视觉任务正在改变机器理解和与世界互动的方式。通过将图像和视频分解为关键元素,这些技术可以更轻松地详细分析物体、运动和交互。 

从改善交通安全和运动表现到简化工业流程,像YOLO11 这样的模型可以提供推动创新的实时见解。随着视觉人工智能的不断发展,它可能会在我们日常解释和使用视觉数据的过程中发挥越来越重要的作用。

加入我们的社区,并访问我们的GitHub仓库,了解人工智能的实际应用。在我们的解决方案页面上探索我们的许可选项,并了解更多关于人工智能在农业中的应用计算机视觉在制造业中的应用的信息。 

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始