敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

什么是姿势估计,它可以在哪里使用?

Abirami Vina

5 分钟阅读

2025年5月7日

了解姿势估计的工作原理、其实际应用,以及像 Ultralytics YOLO11 这样的模型如何使机器能够解释身体运动和姿势。

当您看到一个人弯腰驼背或挺胸抬头时,您会立即清楚他们是姿势不好还是充满自信。没有人需要向您解释。这是因为,随着时间的推移,我们自然而然地学会了解释肢体语言。 

通过经验和观察,我们的大脑非常擅长识别各种物体的姿势,包括人类。得益于人工智能 (AI) 和计算机视觉的最新进展,计算机视觉是一个使机器能够解释来自世界的视觉信息的领域,机器现在也开始学习和复制这种能力。

姿势估计 是一项计算机视觉任务,可帮助机器通过查看图像或视频来确定人或物体的位置和方向。 它通过识别身体上的关键点(如关节和四肢)来了解某人甚至某物的移动方式。 

这项技术正被广泛应用于健身、医疗保健和动画等领域。例如,在工作场所环境中,它可用于监控员工的姿势并支持安全和健康计划。像 Ultralytics YOLO11 这样的计算机视觉模型通过实时估计人体姿势使这成为可能。

图 1. 使用 YOLO11 监控工人姿势的示例。

在本文中,我们将仔细研究姿态估计及其工作原理,以及它在实际应用中发挥作用的用例。让我们开始吧!

姿态估计的演变

姿态估计的研究始于 20 世纪 60 年代末和 70 年代。多年来,针对这项计算机视觉任务的方法已经从基本的数学和几何学转变为由人工智能驱动的更高级的方法。

最初,这些技术依赖于固定的摄像机角度和已知的参考点。后来,它们发展到包括 3D 模型和特征匹配。如今,像 YOLO11 这样的深度学习模型可以从图像或视频中实时检测身体姿势,从而使姿势估计比以往任何时候都更快、更准确。

随着技术的进步,研究人员看到了能够监测和跟踪各种物体,特别是人类和动物姿势的潜在应用。姿势估计尤为重要,因为它使人工智能工具能够以以前不可能的方式理解和测量姿势和运动。 

例如,它允许计算机识别手势以进行免提交互,分析运动员的动作以提高表现,为视频游戏中的逼真动画提供支持,甚至可以通过跟踪患者的康复进度来支持医疗保健。

它与其他计算机视觉任务有何不同?

姿态估计不同于其他的计算机视觉任务,例如目标检测和实例分割。这些任务主要侧重于识别和定位图像中的物体。 

例如,物体检测会在人、车辆或动物等物体周围绘制边界框,以指示它们的存在和位置。实例分割通过在像素级别勾勒出每个物体的精确形状,使这一过程更进一步。

然而,这两种方法主要关注的是物体是什么以及它在哪里——它们不提供关于物体如何定位或它可能在做什么的任何信息。这就是姿态估计变得至关重要的地方。 

通过识别身体上的关键点(例如肘部、膝盖,甚至尾巴),姿势估计可以解释姿势和运动。这可以更深入地了解动作、手势和身体动态,包括 3D 空间中的运动。

了解姿态估计的工作原理

姿势估计模型 通常遵循两种主要方法:自下而上和自上而下。 在自下而上的方法中,模型首先检测单个关键点,如肘部、膝盖或肩部,然后将它们分组以确定它们属于哪个人或物体。 相比之下,自上而下的方法首先检测每个物体(例如图像中的人),然后定位该特定物体的关键点。

图 2. 自下而上与自上而下的姿势估计方法。

一些较新的模型,例如 YOLO11,融合了这两种方法的优点。它保留了自下而上方法的效率,跳过了手动分组步骤,同时还利用自上而下系统的精度,通过在一个简化的流程中检测人和估计他们的姿势。

用于姿势估计的 YOLO11 自定义训练

在了解姿态估计模型的工作原理时,您可能想知道:这些模型实际上是如何学习估计不同物体的姿态的?这就是自定义训练的概念发挥作用的地方。

自定义训练意味着使用您自己的数据来训练模型识别特定的关键点。由于从头开始构建模型需要大量的标记图像和大量时间,因此许多人选择迁移学习。这涉及到从已经在大型数据集上训练过的模型开始,例如在 COCO-Pose 数据集 上预训练的 YOLO11 姿势估计模型,然后使用您自己的数据对其进行微调,以用于特定的任务或用例。

假设您正在处理瑜伽姿势——您可以使用图像对 YOLO11 进行微调,其中每个姿势都标有特定于该活动的关键点。为此,您需要一个模型可以从中学习的带注释图像的自定义数据集。 

在训练过程中,您可以调整批量大小(一次处理的图像数量)、学习率(模型更新其学习的速度)和 epoch(模型循环通过数据集的次数)等设置,以提高准确性。这使得构建针对您特定需求的姿势估计模型变得更加容易。

姿态估计的实际应用

既然我们已经讨论了姿势估计是什么以及它的工作原理,现在让我们仔细看看它的一些实际用例。

使用姿势估计进行物理治疗 

姿态估计正逐渐成为医疗保健行业中一种可靠的工具,尤其是在物理治疗方面。通过使用 AI 和计算机视觉,这些系统可以实时跟踪姿势和动作,并提供反馈,类似于理疗师提供的服务。 

例如,一位从膝盖手术中恢复的患者可以使用姿态估计系统来确保他们正确地进行康复锻炼。该系统可以发现任何不正确的动作并提供改进建议,帮助患者保持正轨并避免受伤。

图 3. 使用 YOLO11 进行物理治疗的示例。

除了康复之外,姿势估计也正在进入健身应用程序。例如,在家锻炼的人可以使用该应用程序来检查他们在锻炼期间的姿势。该应用程序可以提供实时反馈,例如调整深蹲的角度或确保在硬拉期间背部挺直。这有助于用户改进姿势并防止受伤,而无需教练。

姿势估计赋能娱乐行业的动作捕捉

姿态估计改变了娱乐行业中动作捕捉的工作方式,使其更简单、更容易实现。过去,动作捕捉需要在人的身体上放置标记,并用特殊的摄像机进行跟踪,这可能既麻烦又昂贵。 

现在,随着人工智能和计算机视觉的进步,我们可以使用普通的摄像头和算法来跟踪身体运动,而无需标记,从而使过程更加高效和准确,甚至可以实时进行。

这方面的一个很好的例子是迪士尼的AR(增强现实)Poser。这个有趣的工具让你用手机拍一张照片,并让一个数字角色在增强现实中复制你的姿势。它的工作原理是分析你在照片中的姿势,并将其与一个3D角色匹配,从而创建一个有趣的、个性化的AR自拍。 

图 4. AR 角色使用姿势估计来模仿人的姿势。

动物姿态估计驱动的社会行为研究

研究动物行为有助于科学家了解动物如何交流、寻找配偶、照顾幼崽以及群体生活。这些知识对于保护野生动物和更深入地了解自然世界至关重要。

姿态估计通过使用图像和视频跟踪动物的运动和姿势来简化这一过程,而无需将传感器或标签附加到动物身上。这些系统可以自动监测它们的姿势,从而深入了解梳理、玩耍或打斗等行为。 

科学家利用姿势估计来研究猿类行为就是一个有趣的例子。事实上,研究人员已经汇编了 OpenApePose 等数据集,其中包含来自 6 个猿类物种的 71,000 多张标注图像。 

图 5. 猿的姿势估计。

姿势估计的优缺点

以下是姿势估计可以为各行各业带来的一些主要好处:

  • 可扩展性 姿势估计系统可以部署在各种设备上,从智能手机到高级相机设置,使其具有高度的可扩展性,并且可用于不同的用例和环境。

  • 具有成本效益:由于姿势估计依赖于普通相机,不需要昂贵的传感器或标签,因此对于跟踪研究和商业应用中的运动来说,它可能是一种更具成本效益的解决方案。

  • 持续监控: 姿势估计系统可以提供持续的实时跟踪,从而可以监控随时间的变化,无论是康复患者的进展还是跟踪野生动物的行为。

虽然姿态估计的优势在各个领域都很明显,但也需要考虑一些挑战。以下是一些需要注意的关键限制:

  • 泛化能力有限: 许多在人类数据集上训练的模型在没有在特定数据集上重新训练的情况下,不能很好地泛化到动物或不常见的身体结构。

  • 环境限制:在光线不足、快速运动模糊或杂乱的背景下,性能可能会下降。
  • 对遮挡高度敏感: 当身体部位被遮挡或超出画面时,尤其是在拥挤的场景或多人跟踪中,准确性可能会下降。

主要要点

姿态估计已经从早期使用标记的系统发展到由 YOLO11 等深度学习模型驱动的影响深远的工具。无论是在改善物理治疗、增强交互式 AR 体验,还是在帮助野生动物研究方面,姿态估计都在改变机器理解运动和姿势的方式。随着技术的不断进步,解决其局限性将是释放更多实际用途,并使机器更好地理解我们和其他生物的运动方式的关键。

对 AI 感兴趣吗?浏览我们的 GitHub 仓库,与 我们的社区 建立联系,并查看我们的许可选项,以快速启动您的计算机视觉项目。在我们的解决方案页面上了解更多关于零售业中的 AI物流业中的计算机视觉等创新。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板