什么是姿势估计？

了解姿势估计的工作原理、实际应用，以及Ultralytics YOLO11 等模型如何帮助机器解读身体动作和姿势。

撰写人

阿比拉米-维纳

分钟阅读

2025 年 5 月 7 日

用于姿势估计的定制训练YOLO11

当你看到一个人耷拉着脑袋或站在高处双肩后仰时，就会立刻明白他的姿势是不佳还是自信。无需别人向你解释。这是因为，随着时间的推移，我们自然而然地学会了解读肢体语言。

通过经验和观察，我们的大脑已经能够很好地识别包括人类在内的各种物体的姿态。人工智能（AI）和计算机视觉是一个能让机器解读来自世界的视觉信息的领域，得益于这一领域的最新进展，机器现在也开始学习和复制这种能力。

姿势估计是一项计算机视觉任务，可帮助机器通过观察图像或视频来确定人或物体的位置和方向。它通过识别身体上的关键点（如关节和四肢）来了解某人甚至某物是如何移动的。

这项技术正被广泛应用于健身、医疗保健和动画等领域。例如，在工作场所环境中，它可以用来监测员工的姿势，支持安全和健康计划。计算机视觉模型，如 Ultralytics YOLO11等计算机视觉模型通过实时估算人体姿势来实现这一目标。

‍

在本文中，我们将详细介绍姿势估计及其工作原理，以及它在现实世界中发挥重要作用的使用案例。让我们开始吧！

姿势估计的演变

对姿态估计的研究始于 20 世纪 60 年代末和 70 年代。多年来，针对这项计算机视觉任务的研究方法已从基本的数学和几何方法转变为人工智能驱动的更先进方法。

最初，这些技术依赖于固定的摄像机角度和已知的参考点。后来，它们发展到包括三维模型和特征匹配。如今，YOLO11 等深度学习模型可以从图像或视频中实时检测身体位置，使姿势估计比以往更快、更准确。

随着技术的进步，研究人员看到了能够监控和跟踪各种物体（尤其是人类和动物）姿势的潜在应用。姿势估计尤为重要，因为它能让人工智能工具以前所未有的方式理解和测量姿势和运动。

例如，它可以让计算机识别手势以进行免提交互，分析运动员的动作以提高成绩，为视频游戏中的逼真动画提供动力，甚至通过跟踪病人的康复进度为医疗保健提供支持。

它与其他计算机视觉任务有何不同？

姿态估计不同于其他计算机视觉任务，如物体检测和实例分割。这些任务主要侧重于识别和定位图像中的物体。

例如，物体检测会在人物、车辆或动物等物体周围画出边界框，以显示它们的存在和位置。实例分割则在此基础上更进一步，在像素级别勾勒出每个物体的精确形状。

然而，这两种方法主要关注的是物体是什么以及它在哪里，而不提供任何有关物体如何定位或可能在做什么的信息。这就是姿势估计的关键所在。

通过识别身体上的关键点，如手肘、膝盖甚至尾巴，姿势估计可以解释姿势和动作。这样就能更深入地理解动作、手势和身体动态，包括三维空间中的运动。

了解姿势估计的工作原理

姿态估计模型一般采用两种主要方法：自下而上和自上而下。在自下而上的方法中，模型首先检测单个关键点，如手肘、膝盖或肩膀，然后将它们分组，找出它们属于哪个人或哪个物体。而自上而下的方法则是先检测每个物体（如图像中的人），然后找出该特定物体的关键点。

‍

一些较新的模型，如YOLO11，融合了两种方法的优点。它跳过了手动分组步骤，从而保持了自下而上方法的效率，同时还通过一次检测人员并估算其姿势--在单一、精简的流程中--利用了自上而下系统的精确性。

用于姿势估计的定制训练YOLO11

在我们介绍姿势估计模型的工作原理时，你可能会想：这些模型究竟是如何学会估计不同物体的姿势的？这就是定制训练的意义所在。

自定义训练指的是使用自己的数据来教模型识别特定的关键点。由于从头开始建立一个模型需要大量的标注图像和大量的时间，很多人选择了迁移学习。这包括从已经在大型数据集上训练过的模型开始，例如在COCO-Pose 数据集上预先训练过的YOLO11 姿势估计模型，然后根据特定任务或用例使用自己的数据对其进行微调。

比方说，您正在研究瑜伽姿势--您可以使用图像对YOLO11 进行微调，图像中的每个姿势都标注了该活动的特定关键点。为此，您需要一个自定义数据集，其中包含模型可以学习的标注图片。

在训练过程中，你可以调整批量大小（一次处理的图像数量）、学习率（模型更新学习的速度）和epochs（模型循环处理数据集的次数）等设置，以提高准确性。这样就能更轻松地建立适合您特定需求的姿势估计模型。

姿势估计的实际应用

既然我们已经讨论了什么是姿势估计以及它的工作原理，下面就让我们来仔细看看它在现实世界中的一些使用案例。

利用姿势估计进行物理治疗

姿势估计正逐渐成为医疗保健行业，尤其是理疗行业的可靠工具。利用人工智能和计算机视觉，这些系统可以实时跟踪姿势和动作，并提供反馈，类似于理疗师提供的服务。

例如，膝关节手术后恢复期的病人可以使用姿势估算系统来确保自己的康复锻炼正确无误。该系统可以发现任何不正确的动作，并提出改进建议，帮助病人保持正确的姿势，避免受伤。

‍

除了康复训练，姿势估算也开始进入健身应用程序。例如，在家锻炼的人可以使用该应用检查自己在锻炼时的姿势。该应用可以提供实时反馈，例如调整深蹲的角度，或在负重举重时确保背部挺直。这可以帮助用户改善姿势，防止受伤，而不需要教练。

通过姿势估计实现娱乐运动捕捉

姿势估计改变了娱乐业的动作捕捉工作方式，使其变得更简单、更易操作。过去，动作捕捉需要在人的身体上放置标记，并用特殊的摄像机进行跟踪，这既麻烦又昂贵。

现在，随着人工智能和计算机视觉技术的进步，我们可以使用普通摄像头和算法来追踪身体运动，而无需标记，从而使整个过程更加高效和准确，甚至可以实时追踪。

迪斯尼的 AR（增强现实）Poser 就是一个很好的例子。这个有趣的工具可以让你用手机拍照，然后让一个数字角色在增强现实中复制你的姿势。它的工作原理是分析你在照片中的姿势，并将其与 3D 角色进行匹配，从而创建一个有趣的个性化 AR 自拍。

‍

由动物姿势估计驱动的社会行为研究

研究动物行为有助于科学家了解动物如何交流、寻找配偶、照顾幼崽以及群居。这些知识对于保护野生动物和深入了解自然世界至关重要。

姿势估算简化了这一过程，它利用图像和视频跟踪动物的动作和姿势，而无需在动物身上安装传感器或标签。这些系统可以自动监测动物的姿势，提供有关梳理、玩耍或打斗等行为的信息。

科学家利用姿势估计来研究猿类行为就是一个有趣的例子。事实上，研究人员已经汇编了 OpenApePose 等数据集，其中包含来自 6 个猿类物种的 71,000 多张标注图像。

‍

姿势估计的利弊

以下是姿势估计能为各行各业带来的一些主要益处：

可扩展性: 姿态估计系统可部署在从智能手机到高级相机设置等各种设备上，因此具有高度的可扩展性，可用于不同的用例和环境。
成本效益高： 由于姿势估计依赖于普通摄像头，不需要昂贵的传感器或标签，因此在研究和商业应用中，它是一种更具成本效益的运动跟踪解决方案。
连续监测：姿势估计系统可以提供连续、实时的跟踪，从而监测一段时间内的变化，无论是病人的康复进展还是野生动物的行为跟踪。

虽然姿势估计在各个领域都有明显的优势，但也有一些挑战需要考虑。以下是几个需要注意的关键限制：

泛化能力有限： 如果不在特定数据集上重新训练，许多在人类数据集上训练的模型并不能很好地推广到动物或不常见的身体结构上。
环境限制：在光线不足、快速运动模糊或背景杂乱的情况下，性能可能会下降。

对遮挡高度敏感：当身体部位被遮挡或超出画面时，精度会下降，尤其是在拥挤的场景或多人追踪时。

主要收获

姿势估计从早期的使用标记的系统发展到由深度学习模型（如YOLO11）驱动的有影响力的工具，已经走过了漫长的道路。无论是改善物理治疗、为交互式 AR 体验提供动力，还是帮助野生动物研究，姿势估计正在改变机器理解运动和姿势的方式。随着技术的不断进步，解决其局限性将成为开启更多实际用途的关键，并让机器更好地理解我们和其他生物的运动方式。

对人工智能感到好奇？探索我们的GitHub 存储库，与我们的社区建立联系，了解我们的许可选项，启动您的计算机视觉项目。在我们的解决方案页面了解更多有关零售业人工智能和物流业计算机视觉等创新的信息。

什么是姿势估计？

姿势估计的演变

它与其他计算机视觉任务有何不同？

了解姿势估计的工作原理

用于姿势估计的定制训练YOLO11