了解目标跟踪、实例分割和图像分类等计算机视觉任务的工作原理,以及 Ultralytics YOLO11 如何支持它们。

了解目标跟踪、实例分割和图像分类等计算机视觉任务的工作原理,以及 Ultralytics YOLO11 如何支持它们。
得益于摄像头和人工智能 (AI) 的进步,计算机和机器现在能够以类似于人类的方式观察世界。 例如,他们可以识别人、跟踪物体,甚至可以理解视频中发生的事情。
具体来说,计算机视觉是AI的一个分支,它使机器能够理解和解释来自周围世界的视觉信息。计算机视觉涉及各种任务,每项任务都旨在从图像或视频中提取特定类型的见解。例如,对象检测有助于识别和定位图片中的不同项目,而跟踪、分割和姿势估计等其他任务则有助于机器更准确地理解运动、形状和位置。
用于特定应用的计算机视觉任务取决于您需要的洞察类型。诸如Ultralytics YOLO11之类的计算机视觉模型支持各种计算机视觉任务,使其成为构建真实世界视觉 AI 系统的可靠选择。
在本指南中,我们将更详细地了解像 YOLO11 这样的模型所支持的计算机视觉任务。我们将探讨每个任务的工作原理以及它们在不同行业中的应用。让我们开始吧!
计算机视觉任务旨在以不同的方式复制人类的视觉能力。这些任务可以帮助机器检测物体、跟踪它们的运动、估计姿势,甚至勾勒出图像和视频中的各个元素。通常,计算机视觉任务由将视觉数据分解成更小部分,以便更清楚地解释正在发生的事情的模型来实现。
视觉 AI 模型(如 Ultralytics YOLO 模型)在一个框架中支持多种任务,例如检测、跟踪和分割。由于这种多功能性,YOLO11 模型很容易被用于各种用例。
这方面的一个很好的例子是体育分析。YOLO11 可以使用目标检测来检测场上的每个球员,然后可以使用目标跟踪在整个比赛中跟踪他们。同时,YOLO11 的姿势估计功能可以帮助分析球员的动作和技术,实例分割可以将每个球员与背景分离,从而提高分析的精度。
这些由 YOLO11 支持的计算机视觉任务共同完整地呈现了比赛期间发生的情况,使团队能够更深入地了解球员表现、战术和整体策略。
现在我们已经了解了什么是计算机视觉任务,让我们使用实际示例,更详细地了解 YOLO11 支持的每个任务。
当您看一张照片时,大多数人可以很容易地分辨出它显示的是狗、山还是交通标志,因为我们都了解这些东西通常是什么样子。图像分类通过教机器如何根据图像的主要对象(无论是“汽车”、“香蕉”还是“骨折的X光片”)对图像进行分类和标记,来帮助机器做同样的事情。此标签有助于计算机视觉系统理解视觉内容,以便它们可以相应地响应或做出决策。
这个计算机视觉任务的一个有趣应用是野生动物监测。图像分类可用于从野外拍摄的照片中识别不同的动物物种。通过自动标记图像,研究人员可以更轻松地跟踪种群、监测迁徙模式并识别濒危物种,从而支持保护工作。
虽然图像分类有助于获得图像内容的总体概念,但它仅为整个图像分配一个标签。在需要详细信息(例如多个对象的精确位置和身份)的情况下,目标检测至关重要。
目标检测是指识别和定位图像中各个独立目标的过程,通常通过在目标周围绘制边界框来实现。Ultralytics YOLO11 在实时目标检测方面表现尤为出色,使其成为各种应用的理想选择。
例如,零售商店中用于货架补货的计算机视觉解决方案。目标检测可以帮助清点水果、蔬菜和其他物品,确保库存准确。在农田中,相同的技术可以监测作物成熟度,帮助农民确定最佳收获时间,甚至可以区分成熟和未成熟的农产品。
目标检测使用边界框来识别和定位图像中的目标,但它无法捕获目标的精确形状。这就是 实例分割 的用武之地。实例分割不是在目标周围绘制一个框,而是描绘出其精确的轮廓。
您可以这样理解:它不仅仅是简单地指示“这个区域里有一个苹果”,而是仔细地勾勒并填充苹果的确切形状。这种详细的过程有助于 AI 系统清楚地理解物体的边界,尤其是在物体彼此靠近时。
实例分割可应用于多种应用,从基础设施检查到地质调查。例如,可以使用 YOLO11 分析地质调查数据,以分割大小表面裂缝或异常。通过在这些异常周围绘制精确的边界,工程师可以在项目开始之前查明问题并加以解决。
到目前为止,我们所看到的计算机视觉任务都侧重于单个图像中的内容。但是,对于视频,我们需要超越单帧的洞察力。目标跟踪任务可用于此目的。
YOLO11 的目标跟踪功能可以跟踪特定目标(如人或汽车)在一系列视频帧中的移动。即使摄像机角度发生变化或出现其他目标,系统也会继续跟踪同一目标。
这对于需要随时间进行监控的应用至关重要,例如跟踪交通中的车辆。事实上,YOLO11 可以准确地跟踪车辆,跟踪每辆车以帮助实时估计其速度。这使得物体跟踪成为交通监控等系统的关键组成部分。
现实世界中的物体并不总是完全对齐的——它们可能是倾斜的、侧向的或以奇怪的角度定位的。例如,在卫星图像中,船舶和建筑物通常会显示为旋转的。
传统的对象检测方法使用固定的矩形框,这些框不会调整到对象的方向,因此难以准确捕获这些旋转的形状。定向边界框 (OBB) 检测通过使用旋转以紧密贴合对象周围的框来解决此问题,使其与对象的角度对齐,从而实现更精确的检测。
对于港口监控,YOLO11对OBB检测的支持可以帮助准确识别和跟踪船舶,无论其方向如何,从而确保正确监控每艘进出港口的船舶。这种精确的检测提供了关于船舶位置和移动的实时信息,这对于管理繁忙的港口和防止碰撞至关重要。
姿态估计是一种计算机视觉技术,它通过跟踪关键点(如关节、肢体或其他标记)来了解物体的运动方式。这种方法不是将整个物体或身体视为一个完整的单元,而是将其分解为关键部分。这样就可以详细地分析运动、手势和互动。
这项技术的一个常见应用是人体姿态估计。通过实时跟踪身体各个部位的位置,它可以清晰地了解一个人的运动方式。这些信息可用于多种目的,从手势识别和活动监控到体育运动中的性能分析。
同样,在物理康复中,治疗师可以使用人体姿态估计和 YOLO11 来监测患者在锻炼过程中的动作。这有助于确保每个动作都正确完成,同时跟踪一段时间内的进展。
既然我们已经详细探讨了 YOLO11 支持的所有计算机视觉任务,接下来让我们了解 YOLO11 如何支持它们。
YOLO11 不仅仅是一个模型,它是一套专门的模型变体,每个变体都专为特定的计算机视觉任务而设计。这使得 YOLO11 成为一种多功能的工具,可以适应各种应用。您还可以在自定义数据集上微调这些模型,以应对您项目的独特挑战。
以下是针对特定视觉任务预训练的 YOLO11 模型变体:
每个变体都有不同的尺寸可供选择,允许用户根据其特定需求选择速度和准确性之间的适当平衡。
计算机视觉任务正在改变机器理解和与世界互动的方式。通过将图像和视频分解为关键元素,这些技术可以更轻松地详细分析物体、运动和交互。
从提高交通安全和运动表现到简化工业流程,像 YOLO11 这样的模型可以提供推动创新的实时洞察力。随着视觉 AI 的不断发展,它可能会在我们每天解释和使用视觉数据的方式中发挥越来越重要的作用。
加入我们的社区,并访问我们的GitHub仓库,了解人工智能的实际应用。在我们的解决方案页面上探索我们的许可选项,并了解更多关于人工智能在农业中的应用和计算机视觉在制造业中的应用的信息。