深圳Yolo 视觉
深圳
立即加入

Ultralytics YOLO26 与其他 Ultralytics YOLO 模型在姿势估计方面的比较

了解 Ultralytics YOLO26 如何通过更好的非人类关键点支持、更快的收敛速度、改进的遮挡处理以及高效的实时部署来改进姿势估计。

想部署一个计算机视觉项目吗?

了解授权

当您观察一个人的姿势时,很容易注意到他们是驼背、前倾还是站直。人类可以快速理解身体不同部位之间的相互关系。 

这是我们日常生活中解读动作和肢体语言的固有方式。然而,对于机器而言,这种视觉理解并非自动发生。教会系统识别运动和结构需要先进的深度学习和计算机视觉技术,使其能够有意义地解释图像。

特别是,姿势估计是一种视觉 AI 技术,使计算机视觉模型能够建立类似的理解。模型不再仅仅是 detect 图像中的物体,而是预测代表重要结构性地标的关键点。 

这些关键点可以对应身体关节、动物肢体、机械部件,甚至可以是固定点,例如球场角落。通过识别和track这些点,系统能够以结构化和可衡量的方式理解位置、对齐和运动。

随着姿势估计应用于更多的实际场景,模型必须更有效地处理非人类关键点、复杂场景和自定义数据集。例如,Ultralytics YOLO26 等最先进的模型支持姿势估计等计算机视觉任务,并在早期 YOLO 姿势模型的基础上,通过架构和训练改进,旨在增强灵活性和整体性能。

图 1. YOLO 实现的姿势估计示例 (来源)

在本文中,我们将 YOLO26-pose 与之前的 Ultralytics YOLO 姿势模型进行比较,并探讨它如何在复杂场景中提高灵活性、收敛速度和性能。让我们开始吧!

什么是姿势估计 ?

在我们深入比较Ultralytics YOLO 姿势模型之前,让我们仔细了解姿势估计在计算机视觉背景下的实际含义。

姿势估计是一种用于 detect 和 track 图像或视频帧中特定关键点的技术。这些关键点可以代表重要的结构地标,例如人体关节、动物肢体、机器组件或场景中的固定参考点。 

图 2. 使用人体姿势估计来估计工人的姿势 (来源)

通过识别这些点的坐标,模型可以理解物体的位置及其随时间的变化。与为整个图像分配单个标签的图像分类不同,或专注于在物体周围绘制边界框的物体 detect 模型不同,姿势估计提供了关于结构和运动的更详细的空间信息。

YOLO26-pose概述

YOLO26-pose 提供多种模型变体或模型尺寸,包括 YOLO26n-pose 等轻量级选项,以及 YOLO26m-pose、YOLO26l-pose 和 YOLO26x-pose 等大型模型。这使得团队能够根据其硬件和性能需求,在速度和准确性之间选择合适的平衡。

Ultralytics 还提供预训练的姿势估计模型,这些模型在大型通用数据集(例如 COCO 数据集)上进行训练,特别是针对人体姿势估计的 COCO-姿势 (COCO 关键点) 注释,因此您无需从零开始。在大多数情况下,团队会在自己的数据集上对这些模型进行微调,以使其适应特定的关键点、布局或环境。 

这通常涉及准备自定义标注文件,以结构化格式定义关键点坐标和类别标签。这些标注将关键点映射到图像中的特定像素坐标,使模型能够在训练过程中学习精确的空间关系。

使用预训练模型可以加快训练速度,减少数据需求,并有助于更高效地将项目投入生产。 

人体姿势估计的现实世界应用

以下是一些姿势估计发挥重要作用的实际用例概览:

  • 医疗保健和康复:临床医生可以使用姿势估计模型来评估姿势、监测康复进展,并在物理治疗期间分析运动模式。
  • 自动系统:无人机和智能摄像头可以使用姿势估计信息,以更好地理解动态场景中的物体方向和运动。
  • 工作场所安全:组织可以监控身体姿势和重复性动作,以帮助识别潜在的安全风险。
  • 健身与私人训练:健身应用使用姿势估计来跟踪运动姿态、计算重复次数,并针对健身教程中保持的姿势和动作提供实时反馈。
图 3. 姿势估计有助于 track 运动过程中的关键身体点。(来源)

探索 Ultralytics YOLO26 对姿势估计的支持

Ultralytics YOLO26 在早期的 Ultralytics YOLO 模型基础上,进行了旨在使训练和部署更实用的更新。 

与之前的版本一样,YOLO26支持姿势估计作为统一框架的一部分。主要区别在于YOLO26旨在更灵活、更稳定地适应更广泛的实际应用场景。

图4. YOLO26基准测试 (来源)

早期的Ultralytics YOLO姿势估计模型在很大程度上受到人类姿势数据集的影响,这意味着旧方法的部分内容是围绕人体关节结构进行优化的。YOLO26消除了这些针对人类的假设。 

因此,它更适合非人类关键点,例如detect网球场角落或其他自定义结构地标。这一点意义重大,因为开箱即用的预训练YOLO26姿势估计模型是在COCO姿势数据集等数据集上训练的,并预测数据集中标注的人体关键点。 

然而,当团队想要detect不同类型的地标时,例如机械部件、运动场标记或基础设施点,模型通常需要在自定义数据集上进行微调,其中这些特定关键点已标注。

由于 YOLO26 不受人类关节结构假设的束缚,它在微调过程中能更有效地适应。这种灵活性使模型能够更可靠地学习自定义关键点布局,从而在具有独特关键点配置的数据集上进行验证时,评估指标有所提升。

YOLO26-pose 还旨在改进当物体部分被遮挡或以非常小的尺度出现时的关键点定位。在涉及远距离目标、无人机拍摄或小物体场景的真实世界中,这可以带来比早期姿势估计模型更准确的关键点预测。

另一个重要的更新是训练过程中使用的改进损失函数公式。损失函数决定了模型在学习时如何纠正其错误。 

对于 YOLO26-姿势估计,这个过程更有效,有助于模型更快地学习并在更少的epoch中达到高准确性,其中一个epoch指的是对训练数据集的一次完整遍历。

总体而言,YOLO26-姿势估计在早期 Ultralytics YOLO 姿势估计模型的基础上,在非人类关键点支持和训练收敛性方面取得了更明显的改进,同时保持了相同且熟悉的工作流程。

YOLO26姿势估计与Ultralytics YOLOv5的比较

Ultralytics YOLO 模型的最早版本,Ultralytics YOLOv5,主要为目标检测而构建。虽然 YOLOv5 后来扩展到支持实例分割,但它在官方 Ultralytics 框架中不包含原生的、专门的姿势估计头。 

需要关键点 detect 的团队通常依赖于单独的实现或自定义修改。Ultralytics YOLO26 将姿势估计作为一项内置任务,具有专门用于预测关键点的架构头部。 

这意味着 YOLO26 姿势估计模型可以在与 detect 和 segment 相同的统一工作流中进行训练、验证和部署。对于专注于结构化关键点检测的项目,YOLO26 提供了原生的姿势估计支持和 YOLOv5 不具备的开箱即用的任务专用架构。

主要区别:YOLO26姿势估计与Ultralytics YOLOv8姿势估计

Ultralytics YOLOv8在统一的Ultralytics框架内引入了原生的姿势估计,使得使用与detect和segment相同的流程来训练和部署关键点模型变得容易。它依赖于带有非极大值抑制(NMS)的传统后处理流程,并使用早期的损失函数公式进行边界框回归和训练。

YOLO26 在此基础上,通过架构和训练更新,直接提升了姿势估计(pose estimation)的性能。一个主要区别在于其端到端的设计。YOLO26 在推理过程中无需外部 NMS,这简化了部署并提高了延迟一致性,尤其是在 CPU 和边缘设备上。

另一个关键改进是训练方法。YOLO26引入了MuSGD优化器以及更新的损失策略。对于姿势估计任务,它集成了残差对数似然估计,改进了关键点不确定性的建模方式。这些变化共同可以带来更快的收敛速度和更稳定的关键点预测,特别是在复杂或部分遮挡的场景中。

简而言之,YOLOv8姿势估计建立了一个强大且通用的基线。YOLO26姿势估计通过提高训练效率、更好地处理遮挡以及为实际的非人类姿势估计应用提供更大的灵活性,在此基线基础上进行了改进。

YOLO26-Pose 与 Ultralytics YOLO11-Pose:有哪些改进?

Ultralytics YOLO11在Ultralytics YOLOv8的基础上,通过改进骨干网络和特征提取层。它减少了FLOPs,提高了参数效率,并在保持强大实时性能的同时,实现了更高的mAP。对于姿势估计任务,这意味着在更轻量级的架构下,关键点精度更高。

YOLO26-pose 延续了这一进展,带来了更基础的架构转变。简而言之,YOLO11 提升了 YOLOv8 的效率和准确性,而 YOLO26 则在此基础上,通过架构和训练更新,旨在实现更快的收敛、更稳定的推理以及在复杂场景中更高的姿势估计准确性。

为何您应该开始使用YOLO26模型进行姿势估计?

在探索Ultralytics YOLO模型之间的差异时,您可能想知道是否应该转向YOLO26姿势估计。

简而言之,这是一次简单的升级。如果您已经在使用Ultralytics YOLOv8-姿势估计或Ultralytics YOLO11-姿势估计,切换到YOLO26-姿势估计通常只需更改模型版本,而无需重建您的管道。

您可以从对非人类关键点的更好支持、训练期间更快的收敛速度以及对遮挡点的改进处理中受益,所有这些都可以在相同的 Ultralytics 框架内实现。对于大多数新的和现有的姿势估计项目,迁移到 YOLO26-姿势估计是获得这些改进的直接方法,且摩擦最小。

除此之外,YOLO26-姿势估计在Ultralytics Python包中得到全面支持,该包基于PyTorch构建,使训练、验证和部署变得简单。模型可以导出为ONNX、TensorRT、OpenVINO、CoreML和TFLite等格式,使其更容易部署到GPU、CPU和边缘设备上,而无需改变您的整体工作流程。

主要要点

Ultralytics YOLO26-pose 使姿势估计更加灵活可靠,尤其是在处理非人体关键点或复杂场景时。它训练更快,遮挡处理能力更强,并在不同数据集上提供更一致的结果。对于已经使用 Ultralytics YOLO 姿势估计模型的团队,YOLO26 在不改变现有工作流程的情况下提供了显著改进。

想了解更多关于人工智能的信息吗?请查看我们的社区GitHub 仓库。浏览我们的解决方案页面,了解 人工智能在机器人技术中的应用计算机视觉在农业中的应用。探索我们的许可选项,立即开始使用计算机视觉进行构建!

让我们一起共建AI的未来!

开启您的机器学习未来之旅