OpenPose 是什么?探索姿态估计的里程碑

阿比拉米-维纳

5 分钟阅读

2025年6月17日

探索如何在计算机视觉应用中使用 OpenPose 进行姿态估计。了解其特性及其在 Vision AI 中的重要性。

如今,图像和摄像头无处不在——内置于我们的手机、家中,甚至公共场所。我们不仅依靠它们捕捉精彩瞬间,还依靠它们来理解并与周围的世界互动。 

在幕后,人工智能 (AI) 的一个分支——计算机视觉,通过让机器解读视觉数据,实现了这一切。它使系统能够检测物体、识别人脸和追踪运动,在我们日常使用的许多技术中发挥着关键作用。 

得益于人工智能的最新进展,计算机视觉模型现在可以分析和提取更复杂的数据和洞察。姿势估计就是一个例子,它是一项专注于理解人体运动的计算机视觉任务。 

它的工作原理是识别图像或视频中身体的关键点,例如肩膀、肘部和膝盖。这使得分析人体运动方式成为可能,从而应用于健身追踪、动画、医疗保健等领域。

在众多用于姿势估计的工具中,OpenPose 脱颖而出,成为一项重大突破。它由卡内基梅隆大学感知计算实验室的研究人员创建,是首批能够仅使用一个摄像头实时检测多人全身姿势(包括手、脚和面部关键点)的开源系统之一(每人最多可获取 135 个关键点)。

在本文中,我们将探讨 OpenPose、它的工作原理以及它作为计算机视觉里程碑的意义。

图 1.使用 OpenPose 进行多人姿态估计。

回顾姿态估计的历史

在人工智能被广泛采用之前,追踪视频中的人体运动需要使用专门的设备。在电影和动画等行业,演员通常会穿着带有反光标记的服装,以便摄像机能够在受控的演播室环境中捕捉他们的动作。 

虽然这些基于标记的动作捕捉技术非常精确,但它们成本高昂,并且受限于特定的设置。随着计算机视觉技术的进步,研究人员开始探索不使用标记来追踪身体运动的方法。他们利用边缘、轮廓和模板来在图像中寻找人体形状。

这些早期系统在简单直接的情况下运行良好,但在实际场景中却表现不佳。当人物以意想不到的方式移动,或者同一帧画面中出现多个人物时,系统往往无法准确识别。

2010 年代后期,深度学习为姿势估计带来了重大变革。视觉 AI 模型可以在大量人体姿势数据集上进行训练。这些模型不再依赖边缘和模板,而是通过研究数千张带标签的图像来学习识别身体关节和结构。这使得姿势估计在更广泛的场景下更加准确、灵活且有效。

图 2. 2017 年至 2023 年人体姿势估计模型的演变。

OpenPose:现代姿态估计的腾飞之地

OpenPose 于 2017 年首次发布,能够同时估计单幅图像中多个人的姿势。与旧系统不同,OpenPose 不需要特殊的服装或标记。它适用于标准相机,可以实时处理图像和视频。这些功能使开发人员和研究人员更容易进行姿势估计。

OpenPose 为计算机视觉奠定的基础帮助其他人为各种其他应用构建了更新的架构。如今,像Ultralytics YOLO8Ultralytics YOLO11这样支持姿态估计任务的视觉 AI 模型能够更快地获得结果并降低延迟。 

图 3.使用 YOLO11 进行姿态估计。

然而,如果你对姿态估计的演变过程感到好奇,OpenPose 是一个不错的起点。它引入了许多至今仍在使用的关键思想。 

OpenPose 的关键功能

现在我们对 OpenPose 的重要性有了更好的理解,让我们仔细看看它实际上能做什么。

OpenPose 的核心功能是关键点检测。关键点是人体上的特定标志,例如鼻尖、肩部中心、肘部、手腕、臀部、膝盖和脚踝。OpenPose 最多可以为每个人检测 135 个关键点,包括手指和面部特征等细节区域。

当这些点连接起来时,它们就构成了人体的简化表示——你可以把它想象成一个数字骨架。这个骨架轮廓不仅显示了一个人的位置,还显示了他们的姿势:他们是坐着、站着、挥手、微笑还是行走。计算机可以利用这些骨架直观地解读人体动作,就像我们本能地理解某人的肢体语言一样。

骨骼追踪尤其有用,因为它可以消除背景噪音和干扰,让系统专注于人体的姿势和运动。OpenPose 并非分析每个像素,而是专注于那些能够展现人体如何运动或互动的有意义的点。

通过从日常图像或视频中提取这些结构化信息,OpenPose 可以构建响应手势、监控身体活动、评估情绪暗示甚至为数字角色制作动画的应用程序。

OpenPose如何工作? 

以下是 OpenPose 如何从视觉输入中检测和连接人体关键点的概述:

  • 从图像开始: OpenPose 从照片、视频或实时摄像头中获取单张图像。
  • 识别重要身体部位:系统会寻找身体上的关键点,例如鼻子、肘部、手腕、膝盖和脚踝。系统一旦确定某个身体部位的位置,就会标记这些点。
  • 确定哪些部位可以组合:接下来,OpenPose 检查关键点的连接方式。它使用数学计算来确定哪些关节属于同一个人——例如,将手腕与右肘和右肩进行匹配。
  • 为每个人绘制骨架:将关键点分组后,OpenPose 会将它们连接成一个“简笔画”,以展示每个人的姿势。即使同一帧中出现多个人物,这种方法也能正常工作。
  • 返回姿态数据:最终,它提供所有检测到的关键点的精确位置。这些可用于跟踪运动、识别手势或构建交互式工具——所有这些都是实时的。
图 4.使用 OpenPose 进行人体关键点检测和跟踪。

使用 OpenPose 的跨行业姿态估计应用 

OpenPose 是首批将姿态估计应用于各种实际场景的先进工具之一。虽然它在当今的实时计算机视觉解决方案中并不常用,但它在塑造体育、娱乐、教育和安全等领域的早期工作中发挥了重要作用。 

让我们仔细看看它是如何帮助在这些领域铺平道路的。

使用 OpenPose 进行健身和运动姿势估计

观看棒球比赛时,很容易理解正在发生的事情——你可以立即识别出投球、挥棒或盗垒。作为人类,我们能够直观地解读身体动作,并毫不费力地理解它们。但对于机器来说,识别这些动作要复杂得多。它们需要关于身体各个部位如何在空间中运动的精确信息。

OpenPose 是计算机视觉领域迈出的一大步,是一款在各种环境下分析运动姿势的实用工具。

许多研究项目使用 OpenPose 来分解挥杆和跳跃等动作,甚至根据球员的移动方式对特定的棒球动作进行分类。由于 OpenPose 可以在开放环境中使用标准视频运行,研究人员可以测试此类系统在现实世界的训练或指导场景中的表现。

这些早期的研究为现在先进体育技术中使用的性能跟踪工具奠定了基础。

图 5.使用 OpenPose 进行棒球动作分类流程。

在安防系统中使用 OpenPose

同样,研究人员还使用 OpenPose 探索基于视频的姿势追踪如何支持安全监控。该技术已在检测跌倒、意外手势或公共场所的运动模式等行为方面进行了测试。

由于 OpenPose 兼容标准摄像头,它使得早期实验在医院和交通枢纽等环境中更容易进行。这些研究推动了如今用于监控、跌倒检测和应急响应系统的新型模型的开发。

图 6.OpenPose启用跌倒检测。

OpenPose的优缺点

以下是OpenPose提供的一些优势:

  • 有助于研究和原型设计:它已广泛应用于学术研究,特别是在人机交互、生物力学和行为分析等领域。
  • 跨平台支持:它可以在 Windows、Linux 和 macOS 上运行,同时支持中央处理器 (CPU) 和图形处理单元 (GPU)
  • 离线处理能力:它可以在没有互联网访问的环境中运行,使其成为医疗保健或教育等隐私敏感环境的理想选择。

尽管OpenPose向前迈出了一大步,但它也存在一些需要牢记的技术限制。以下是OpenPose面临的一些关键挑战: 

  • 高处理要求:实时运行OpenPose需要强大的GPU和大量的计算资源。
  • 对环境敏感:在光线不足、空间拥挤或摄像机角度不理想的情况下,性能可能会下降。
  • 与较新的模型相比,OpenPose 体积较大且运行速度较慢。它不太适合部署在智能手机、平板电脑或嵌入式系统等资源有限的设备上。

主要收获

OpenPose 在使姿势估计更加便捷方面发挥了重要作用。它表明,只需一个简单的摄像头就可以追踪身体运动,而无需依赖套装或专用设备。

它为医疗保健、教育、娱乐和研究领域的众多实际应用奠定了基础。虽然现在更新的模型速度更快、性能更轻量,但 OpenPose 仍然是理解姿态估计发展历程的关键参考点。 

加入我们的社区,访问我们的GitHub 代码库,了解更多关于 AI 的信息。如果您正在考虑构建自己的计算机视觉解决方案,欢迎探索我们的许可选项。此外,您还可以了解医疗保健领域的计算机视觉物流领域的 AI如何产生影响!

让我们共同打造人工智能的未来

开始您的未来机器学习之旅

免费开始
链接复制到剪贴板