遇见 YOLO26: 下一代视觉 AI。
Ultralytics
指南

姿势估计工具终极指南

了解姿势估计工具如何用于检测图像和视频中的身体关键点,估计 2D 和 3D 姿势,并为各种视觉 AI 应用提供支持。

ABAbirami Vina
6 min read
使用 Ultralytics YOLO11 进行姿势估计

作为人类,我们能够凭本能解读动作。当有人向前倾斜、转头或抬起手臂时,你可以立即推断出他们在做什么。这是一种安静的、近乎潜意识的技能,塑造了我们与人互动和探索世界的方式。

随着技术成为日常生活中更重要的一部分,我们自然希望设备能像我们一样流畅地理解动作。人工智能的最新进展,尤其是基于深度学习的进步,正使这一切成为可能。特别是计算机视觉技术,它能帮助机器从图像和视频中提取含义,并推动了这一进步。

例如,姿态估计是一种常见的计算机视觉任务,旨在预测图像或视频帧中预定义身体关键点(如肩膀、肘部、臀部和膝盖)的位置。这些关键点可以使用固定的骨骼定义连接起来,形成简化的姿态表示。

诸如Ultralytics YOLO11和即将推出的Ultralytics YOLO26等计算机视觉模型支持姿态估计等任务,并可用于支持实时应用,包括健身和体育中的姿态反馈、安全监控以及交互式增强现实体验。

使用 Ultralytics YOLO11 进行姿态估计一览

图 1. 使用 Ultralytics YOLO11 进行姿态估计的概览(来源

在本文中,我们将深入研究姿态估计工具,了解姿态估计的工作原理、应用领域以及当今市面上一些顶级的模型和库。让我们开始吧!

Link to this section什么是姿态估计?#

姿态估计是一种计算机视觉技术,旨在帮助系统理解人或物体在图像或视频中的位置。它不是平等地分析每一个像素,而是预测一组一致的地标,如头部、肩膀、肘部、臀部、膝盖和脚踝。

大多数模型会输出这些关键点的坐标以及一个反映每个预测正确概率的分数。随后,这些关键点可以使用预定义的骨骼布局连接起来,形成一个简单的姿态表示。

当在视频中逐帧应用时,所得的关键点可以随时间进行关联以估计运动。这使得姿态检查、运动分析和基于手势的交互等应用成为可能。

姿态估计示例

图 2. 姿态估计示例(来源

Link to this section对姿态估计工具的需求#

人类的动作承载着大量信息。一个人的弯腰、伸手或重心转移方式可以揭示意图、努力程度、疲劳感,甚至受伤风险。直到最近,要捕捉这种精细程度通常需要专门的传感器、动作捕捉服或受控的实验室环境。

姿态估计改变了这一切。从普通图像和视频中提取关键身体地标,让计算机能够使用标准摄像头分析动作。这使得动作分析在现实环境中变得更易于获取、可扩展且实用。

以下是姿态估计产生影响的几种方式:

  • 更安全的工作场所:基于视觉的系统可用于在伤害发生前检测高风险姿势、重复性劳损或不安全的举重技术。
  • 更好的健身和体育训练:视觉 AI 解决方案可以实时评估姿态、平衡和技术,无需穿戴设备即可为用户提供即时反馈。
  • 医疗保健和康复:临床医生可以使用简单的视频记录远程跟踪康复进度、姿态和活动范围。
  • 交互式体验:姿态估计使数字头像和沉浸式环境更容易准确地跟随和反映人类运动。

Link to this section姿态估计算法的演变#

估计姿态的想法已经存在很多年了。早期的研究方法使用简单的几何模型和手工制作的规则,通常只能在受控条件下工作。

例如,一个系统在人站立于固定位置时可能表现良好,但一旦他们开始行走、转身或与现实场景中的物体互动,系统就会失效。这些方法在处理自然运动、不断变化的摄像机角度、杂乱背景和部分遮挡时通常会遇到困难。

现代姿态估计依赖深度学习来应对这些挑战。通过在大型标注数据集上训练卷积神经网络,模型能够学习视觉模式,从而帮助它们在不同姿态、人物和环境中更可靠地检测关键点。

随着样本量的增加,模型可以改进其预测并更好地泛化到新场景中。得益于这一进展,姿态估计现在支持广泛的实际用例,包括工作场所监控和人体工程学,以及教练和分析师研究运动员动作的体育分析。

Link to this section姿态估计技术的类型#

根据环境和你需要测量的对象,姿态估计有几种不同的形式。以下是你将会遇到的主要类型:

  • 2D 姿态估计: 这种方法在二维图像或视频帧中检测身体关键点。它适用于标准摄像头,且计算效率高,适合基础运动跟踪、姿态分析和实时姿态反馈等任务。
  • 3D 姿态估计: 除了图像坐标外,通过估计深度,3D 姿态估计提供了对身体运动的空间理解。当涉及前后运动时(如体育分析、康复、生物力学和动画),这一点尤其有用。具体而言,3D 人体姿态估计捕获 3D 空间中的关节位置和运动,减少了 2D 投影可能产生的歧义。
  • 单人姿态估计: 这些系统旨在一次跟踪一个人。它们在受控或半受控环境下表现最佳,即受试者清晰可见的情况下,例如指导练习应用、视频通话或动作分析设置。
  • 多人姿态估计: 这种方法专为多人场景构建,可以同时检测和跟踪多个人的姿态。它在工作场所、健身房、公共场所和集体活动等拥挤环境中特别有用,因为受试者可能会重叠或互相遮挡。

了解 3D 空间与 2D 图像空间中的人体运动

图 3. 理解 3D 空间与 2D 图像空间中的人体运动 (来源)

Link to this section理解人体姿态估计模型的工作原理#

姿态估计可以应用于多种物体,但为了简单起见,我们专注于人体姿态估计。

大多数人体姿态估计系统都是在注释数据集上训练的,其中身体关键部位在大规模图像和视频帧集中被标注出来。使用这些示例,模型学习与人体地标(如肩膀、肘部、臀部、膝盖和脚踝)相关的视觉模式,以便在新的场景中准确预测关键点。

另一个关键方面是模型的推理架构,它决定了如何检测关键点并将其组装成完整的姿态。一些系统首先检测每个人,然后在每个人的区域内估计关键点,而另一些则在整幅图像中检测关键点,然后将其分组为个体。更新的单阶段设计可以在一次传递中预测姿态,平衡了实时使用的速度和准确性。

接下来,让我们详细介绍不同的姿态估计方法。

Link to this section自底向上(Bottom-up)姿态估计#

在自底向上的方法中,模型首先查看整幅图像并找到身体关键点,如头部、肩膀、肘部、臀部、膝盖和脚踝。在此阶段,它并不尝试区分人员。它只是检测整个场景中姿态骨架定义的所有关键点或身体关节。

之后,系统执行第二步来连接这些点。它将属于一起的关键点进行关联,并将它们分组为完整的骨架,每人一个。由于不需要先检测每个人,自底向上的方法通常在人们重叠、以不同大小出现或被部分隐藏的拥挤场景中表现良好。

Link to this section自顶向下(Top-down)姿态检测#

相比之下,自顶向下的系统首先从检测图像中的每个人开始。它们在每个人周围放置一个边框(Bounding Box),并将每个框视为一个独立的分析区域。

一旦确定了人的位置,模型就会预测该区域内的身体关键点。这种分步设置通常会产生非常准确的结果,尤其是在场景中只有少数人且每个人都清晰可见的情况下。

Link to this section单阶段或混合姿态估计#

单阶段(有时称为混合)模型在一次传递中预测姿态。它们不是先进行人物检测,再进行关键点估计,而是同时输出人员位置和身体关键点。

由于一切都在一个模块中完成,这些模型通常更快、更高效,这使得它们非常适合实时使用,如直播运动跟踪和动作捕捉。诸如 Ultralytics YOLO11 之类的模型就是围绕这一理念构建的,旨在平衡速度与可靠的关键点预测。

Link to this section训练和评估姿态估计模型#

无论采用哪种方法,姿态估计模型在现实世界中可靠使用之前,仍需要经过仔细的训练和测试。它通常从标记有身体关键点的大型图像(有时是视频)集中学习,从而帮助它处理不同的姿态、摄像机角度和环境。

一些广为人知的姿态估计数据集包括 COCO Keypoints、MPII Human Pose、CrowdPose 和 OCHuman。当这些数据集无法反映模型在部署时将面临的条件时,工程师通常会在目标环境(如工厂车间、健身房或诊所)中收集并标注额外的图像。

使用计算机视觉估算的各种姿态

图 4. 使用计算机视觉估计的各种姿态(来源

训练完成后,模型会在标准基准上进行性能评估,以衡量准确性和鲁棒性,并指导进一步的微调以供实际使用。结果通常使用平均精度均值(通常称为 mAP)来报告,它通过将预测的姿态与标注的真值(Ground Truth)进行比较,汇总了不同置信度阈值下的性能。

在许多姿态基准测试中,预测的姿态会使用对象关键点相似度(OKS)与真值姿态进行匹配。OKS 衡量预测的关键点与标注的关键点有多接近,同时考虑了人员规模和每个关键点的典型定位难度等因素。

姿态模型还会输出检测到的人员和各个关键点的置信度分数。这些分数反映了模型的置信度,并用于对预测进行排序和过滤,这在遮挡、运动模糊或异常摄像机角度等挑战性条件下尤为重要。

Link to this section流行的姿态估计工具和库#

如今有许多姿态估计工具可用,每种工具都在速度、准确性和易用性之间取得平衡。以下是一些最常用的工具和库:

  • Ultralytics YOLO11: 作为最先进的开源视觉 AI 模型开发,YOLO11 建立在Ultralytics YOLOv8等早期模型的基础上。它提高了速度、准确性和整体效率,同时支持包括姿态估计在内的各种计算机视觉任务。凭借从笔记本电脑到边缘设备的强大跨平台性能,YOLO11 是许多实际部署的绝佳选择。
  • Ultralytics YOLO26: 这一即将推出的下一代模型旨在更轻、更小、更快,同时保持强大的准确性。它专为实时使用和更简便的部署而构建,并支持物体检测、实例分割和姿态估计等任务,适用于从边缘设备到大型系统的各种模型尺寸。
  • MediaPipe: 这是一个用于构建视觉和机器学习管道的跨平台框架。它轻量级且能在移动设备、平板电脑和网页应用中高效运行,并包含针对全身姿态、面部地标和手部跟踪的现成解决方案和模型。
  • OpenPose 这是一个端到端的开源姿态估计系统,以多人关键点检测而闻名。它可以同时估计身体、手部和面部关键点,常用于研究、动画和运动分析。
  • MMPose: MMPose 是 OpenMMLab 生态系统中基于 PyTorch 的姿态估计工具包。它提供了许多模型实现、训练实用程序和配置选项,非常适合实验和深度定制。
  • HRNet 和 AlphaPose: 这些是目前仍在研究中使用的较早的姿态估计模型。HRNet 是一种在整个网络中保持高分辨率图像特征的姿态模型架构,有助于精确定位关键点。AlphaPose 是一种广泛使用的多人姿态估计系统,常用于需要高精度的拥挤或复杂场景。

Link to this section姿态分析和估计的实际应用#

姿态估计正越来越多地用于将普通视频转化为有用的运动见解。通过逐帧跟踪身体关键点,这些系统可以从摄像头数据流中推断出姿势、运动和身体行为,使这项技术在许多现实环境中变得切实可行。

例如,在医疗保健和康复领域,姿态跟踪可以帮助临床医生观察和测量患者在治疗和康复过程中的运动方式。通过从普通视频记录中提取身体地标,它可以用于评估姿态、活动范围和随时间变化的整体运动模式。这些测量可以支持和优化传统的临床评估,并在某些情况下,无需穿戴式传感器或专门设备即可更轻松地跟踪进度。

同样,在体育和广播中,姿态估计可以分析运动员从视频流中直接获取的动作。一个有趣的例子是 Hawk-Eye,这是一种用于职业体育比赛裁决和广播图形的基于摄像头的跟踪系统。它还通过从摄像机视角估计运动员的身体关键点来提供骨骼跟踪。

Link to this section选择合适的姿态估计工具#

选择合适的姿态估计工具始于了解你的计算机视觉项目的需求。有些应用优先考虑实时速度,而另一些则需要更高的准确性和细节。

目标部署设备也至关重要。移动应用程序和边缘设备通常需要轻量级、高效的模型,而较大的模型通常更适合服务器或云环境。

此外,易用性也能发挥作用。良好的文档、顺畅的部署以及对自定义训练的支持可以简化你的项目。

简而言之,不同的工具在不同的领域表现优异。例如,Ultralytics YOLO 模型为许多实际的姿态估计应用提供了速度、准确性和易部署性的实用平衡。

使用 Ultralytics YOLO11 进行动物姿态估计

图 5. 使用 Ultralytics YOLO11 进行动物姿态估计(来源

Link to this section关键要点#

姿态估计通过检测图像和视频中的身体关键点来帮助计算机理解人类动作。像 YOLO11 和 YOLO26 这样的模型使构建用于体育、医疗保健、工作场所安全和交互式体验等领域的实时应用变得更加容易。随着模型变得越来越快和越来越准确,姿态估计可能会成为许多视觉 AI 系统的常见功能。

想了解更多关于 AI 的信息吗?请查看我们的社区GitHub 存储库。探索我们的解决方案页面,了解机器人领域的 AI制造业中的计算机视觉。了解我们的许可选项并立即开始使用计算机视觉进行构建吧!

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅