了解对象跟踪、实例分割和图像分类等计算机视觉任务的工作原理,以及Ultralytics YOLO11 如何支持这些任务。
得益于摄像头和人工智能(AI)的进步,计算机和机器现在能够以与人类相似的方式观察世界。例如,它们可以识别人、跟踪物体,甚至理解视频中发生的事情的背景。
具体来说,计算机视觉是人工智能的一个分支,它使机器能够理解和解释周围世界的视觉信息。计算机视觉涉及多种任务,每种任务都旨在从图像或视频中提取特定的洞察力。例如,物体检测有助于识别和定位图片中的不同物品,而跟踪、分割和姿势估计等其他任务则有助于机器更准确地理解运动、形状和位置。
用于特定应用的计算机视觉任务取决于您所需的洞察力类型。计算机视觉模型如 Ultralytics YOLO11等计算机视觉模型支持各种计算机视觉任务,是构建真实世界视觉人工智能系统的可靠选择。
在本指南中,我们将仔细研究YOLO11 等模型所支持的计算机视觉任务。我们将探讨每项任务的工作原理以及它们在不同行业中的应用。让我们开始吧!
计算机视觉任务旨在以不同方式复制人类的视觉能力。这些任务可以帮助机器检测物体、跟踪物体运动、估计物体姿态,甚至勾勒出图像和视频中的单个元素。通常情况下,计算机视觉任务是通过将视觉数据分解成更小部分的模型来实现的,这样它们就能更清晰地解释正在发生的事情。
视觉人工智能模型(如Ultralytics YOLO 模型)在一个框架内支持多种任务,如检测、跟踪和分割。由于这种多功能性,YOLO11 模型很容易被广泛应用。
体育分析就是一个很好的例子。YOLO11 可以使用对象检测功能来检测场上的每位球员,然后通过对象跟踪功能对他们进行全程跟踪。同时,YOLO11 的姿势估计功能可以帮助分析球员的动作和技术,而实例分割则可以将每个球员从背景中分离出来,从而提高分析的精确度。
这些YOLO11计算机视觉任务共同创建了游戏过程中发生的完整画面,让团队更深入地了解球员表现、战术和整体战略。
既然我们已经了解了什么是计算机视觉任务,下面就让我们通过真实世界中的示例,更详细地了解YOLO11 支持的每一项任务。
当你看一张照片时,大多数人都能很容易地分辨出照片上是一只狗、一座山还是一个交通标志,因为我们都知道这些东西通常是什么样子的。图像分类通过教会机器如何根据图像的主要对象(是 "汽车"、"香蕉 "还是 "骨折的 X 光片")对图像进行分类和标记,帮助机器做到这一点。这种标签可以帮助计算机视觉系统理解视觉内容,从而做出相应的反应或决策。
这项计算机视觉任务的一个有趣应用是野生动物监测。图像分类可用于从野外拍摄的照片中识别不同的动物物种。通过自动标记图像,研究人员可以跟踪种群数量、监测迁徙模式,并更容易地识别濒危物种,从而为保护工作提供支持。
虽然图像分类有助于全面了解图像的内容,但它只能为整个图像指定一个标签。在需要详细信息(如多个物体的精确位置和特征)的情况下,物体检测就变得至关重要。
物体检测是在图像中识别和定位单个物体的过程,通常是在物体周围绘制边界框。Ultralytics YOLO11 在实时物体检测方面表现尤为出色,是各种应用的理想之选。
以零售店用于货架清点的计算机视觉解决方案为例。物体检测可以帮助清点水果、蔬菜和其他物品,确保库存准确无误。在农田里,同样的技术可以监测作物成熟度,帮助农民确定最佳收获时间,甚至可以区分成熟和未成熟的农产品。
物体检测使用边界框来识别和定位图像中的物体,但并不能捕捉到物体的准确形状。这就是实例分割的用武之地。实例分割不是在物体周围画一个框,而是追踪物体的精确轮廓。
你可以这样想:它不是简单地表示 "这个区域有一个苹果",而是仔细地勾勒和填充苹果的准确形状。这一细致的过程有助于人工智能系统清楚地了解物体的边界,尤其是当物体靠得很近时。
实例分割可应用于从基础设施检测到地质勘测等许多领域。例如,可以使用YOLO11 对地质勘测的数据进行分析,以分割大大小小的表面裂缝或异常。通过在这些异常周围绘制精确的边界,工程师可以在项目开始前找出问题并加以解决。
到目前为止,我们所了解的计算机视觉任务主要集中在单张图像上。然而,当涉及到视频时,我们需要的是超越一帧图像的洞察力。物体追踪任务就能满足这一需求。
YOLO11 的物体跟踪功能可以跟踪特定物体(如人或车)在一系列视频帧中的移动。即使摄像机角度发生变化或出现其他物体,系统也会继续跟踪同一目标。
这对于需要长期监控的应用(如跟踪交通中的汽车)来说至关重要。事实上,YOLO11 可以准确跟踪车辆,跟踪每辆车,帮助实时估计其速度。这使得物体跟踪成为交通监控等系统的关键组成部分。
现实世界中的物体并不总是完全对齐的--它们可能会倾斜、侧向或以奇怪的角度摆放。例如,在卫星图像中,船只和建筑物经常会出现旋转。
传统的物体检测方法使用固定的矩形框,不能根据物体的方向进行调整,因此很难准确捕捉到这些旋转的形状。方向边界框 (OBB) 检测法可解决这一问题,它使用可旋转的框来紧贴物体,并与物体的角度保持一致,从而实现更精确的检测。
在港口监控方面,YOLO11对 OBB 检测的支持有助于准确识别和跟踪船只,无论其朝向如何,从而确保对每一艘进出港口的船只进行适当监控。这种精确的检测可提供有关船舶位置和移动的实时信息,这对于管理繁忙的港口和防止碰撞至关重要。
姿态估计是一种计算机视觉技术,通过跟踪关键点(如关节、肢体或其他标记)来了解物体的运动方式。这种方法不是将整个物体或身体视为一个完整的单元,而是将其分解为关键部分。这样就可以对动作、手势和互动进行详细分析。
这项技术的一个常见应用是人体姿势估计。通过实时跟踪身体各部位的位置,可以清晰地了解人的运动状态。这些信息可用于多种用途,从手势识别、活动监测到运动表现分析。
同样,在物理康复中,治疗师可以利用人体姿势估计和YOLO11 来监控患者在锻炼过程中的动作。这有助于确保每个动作都做得正确,同时跟踪随时间推移取得的进展。
在详细了解了YOLO11 支持的所有计算机视觉任务之后,让我们来看看YOLO11 是如何支持这些任务的。
YOLO11 不仅仅是一个模型,它还是一套专门的模型变体,每个变体都是为特定的计算机视觉任务而设计的。这使得YOLO11 成为一个多功能工具,可以适用于广泛的应用。您还可以在自定义数据集上对这些模型进行微调,以应对项目中的独特挑战。
以下是针对特定视觉任务预先训练的YOLO11 模型变体:
每种型号都有不同的尺寸,用户可以根据自己的具体需求,在速度和精确度之间选择合适的平衡点。
计算机视觉任务正在改变机器理解世界和与世界互动的方式。通过将图像和视频分解为关键元素,这些技术使详细分析物体、动作和交互变得更加容易。
从改善交通安全和运动表现到简化工业流程,像YOLO11 这样的模型可以提供推动创新的实时见解。随着视觉人工智能的不断发展,它可能会在我们日常解释和使用视觉数据的过程中发挥越来越重要的作用。
加入我们的社区,访问我们的 GitHub 存储库,了解人工智能的应用。在我们的解决方案页面,探索我们的许可选项,了解更多有关农业人工智能和制造业计算机视觉的信息。