深圳Yolo 视觉
深圳
立即加入

什么是 OpenPose?探索姿势估计 的里程碑

Abirami Vina

5 分钟阅读

2025年6月17日

探索 OpenPose 如何用于计算机视觉应用中的姿势估计 。了解它的特点及其在视觉人工智能中的意义。

如今,图像和摄像头随处可见——内置于我们的手机、家庭甚至公共场所。我们不仅依靠它们来捕捉瞬间,还依靠它们来帮助我们理解和与周围的世界互动。 

在幕后,计算机视觉作为人工智能(AI)的一个子领域,通过让机器解释视觉数据,使这一切成为可能。它使系统能够detect 物体、识别人脸和track 运动,在我们日常使用的许多技术中发挥着关键作用。 

得益于人工智能领域的最新进展,计算机视觉模型现在可以分析和提取更复杂的数据和见解。其中一个例子就是姿势估计 估计,这是一项专注于理解人类运动的计算机视觉任务。 

它的工作原理是识别图像或视频中身体的关键点,例如肩膀、肘部和膝盖。这使得分析人们的运动方式成为可能,从而实现健身追踪、动画、医疗保健等领域的应用。

在为姿势估计 开发的众多工具中,OpenPose 是一项重大突破。OpenPose 由卡内基梅隆大学感知计算实验室的研究人员创建,是首批开源系统之一,只需使用一个摄像头就能实时检测多人的全身姿势,包括手、脚和面部关键点(每人最多可检测 135 个关键点)。

在本文中,我们将探讨 OpenPose、它的工作原理以及它作为计算机视觉领域里程碑的意义。

图 1.使用 OpenPose 进行多人姿势估计 。

看一看姿势估计 估计的历史

在人工智能被广泛采用之前,视频中人体运动的跟踪需要使用专用设备。在电影和动画等行业中,演员通常穿着带有反光标记的服装,以便摄像机可以在受控的演播室环境中捕捉他们的动作。 

虽然这些基于标记的动作捕捉技术很精确,但它们也很昂贵,而且仅限于特定的设置。随着计算机视觉技术的发展,研究人员开始寻找不使用标记也能track 人体运动的方法。他们利用边缘、轮廓和模板来寻找图像中的人体形状。

这些早期系统在简单直接的实例中有效,但在现实场景中却步履维艰。当人们以意想不到的方式移动或当一个画面中出现多个人时,它们的结果往往很差。

2010 年代末,深度学习为姿势估计 带来了重大转变。视觉人工智能模型可以在大量人体姿势数据集上进行训练。这些模型不依赖边缘和模板,而是通过研究成千上万张标注图像来学习识别人体关节和结构。这使得姿势估计 估计更加准确、灵活,并在更广泛的环境中产生影响。

图 2.2017 年至 2023 年人类姿势估计 模型的演变。

OpenPose:现代姿势估计 估计起飞的地方

OpenPose 于 2017 年首次发布,能够在一张图像中同时估算出多人的姿势。与旧系统不同,OpenPose 不需要特殊的服装或标记。它可与标准相机配合使用,并能实时处理图像和视频。这些功能让开发人员和研究人员更容易进行姿势估计 估计

OpenPose 为计算机视觉奠定的基础帮助其他公司为各种其他应用构建了更新的架构。如今,Ultralytics YOLO8Ultralytics YOLO11姿势估计 视觉姿势估计 模型支持姿势估计 任务,可提供更快的结果和更低的延迟。 

图 3.使用YOLO11 进行姿势估计 。

不过,如果你对 "姿势估计 "的发展历程感到好奇,OpenPose 不失为一个很好的起点。它引入了许多新系统至今仍依赖的关键理念。 

OpenPose 的主要功能

既然我们对OpenPose的重要性有了更深入的了解,那么让我们仔细看看它实际上能做什么。

OpenPose 功能的核心是 关键点检测。关键点是人体上的特定地标,如鼻尖、肩部中心、肘部、手腕、臀部、膝盖和脚踝。OpenPose 可以为每个人detect 多达 135 个这样的点,包括手指和面部特征等细节区域。

当这些点连接起来时,它们形成了人体的一个简化表示——你可以把它想象成一个数字骨架。 这个骨骼轮廓不仅显示了一个人在哪里,还显示了他们的姿势:他们是坐着、站着、挥手、微笑还是走路。 计算机可以使用这些骨架在视觉上解释人类的运动,就像我们本能地理解某人的肢体语言一样。

骨骼跟踪特别有用,因为它消除了背景噪音和干扰,让系统可以纯粹地关注人体姿势和运动。OpenPose 不分析每个像素,而是专注于有意义的点,这些点讲述了一个人如何移动或互动的过程。

通过从日常图像或视频中提取这种结构化信息,OpenPose 可以构建能够响应手势、监控身体活动、评估情绪线索甚至动画数字角色的应用程序。

OpenPose 的工作原理是什么? 

以下概述了 OpenPose 如何从视觉输入中检测和连接人体上的关键点:

  • 从图像开始:OpenPose 从照片、视频或实时摄像头 feed 中获取单个图像。
  • 识别重要的身体部位:该系统寻找身体上的关键点,如鼻子、肘部、手腕、膝盖和脚踝。无论系统确信身体部位在哪里,都会被标记出来。
  • 确定哪些部分组合在一起:接下来,OpenPose 检查关键点是如何连接的。它使用数学计算来确定哪些关节属于同一个人 - 例如,将手腕与右肘和肩膀匹配。
  • 为每个人绘制骨架: 将关键点分组后,OpenPose 会将它们连接成一个 "棒状图",显示每个人的姿势估计。即使多人出现在同一画面中,这种方法也能奏效。
  • 返回姿势估计 数据: 最后,它提供了所有检测到的关键点的准确位置。这些数据可用于跟踪运动、识别手势或构建交互式工具--所有这些都是实时的。
图 4. 使用 OpenPose 进行人体关键点检测和跟踪。

使用 OpenPose 估算各行业的估算应用 

OpenPose 是最早的先进工具之一,它使姿势估计 估计在各种实际应用案例中变得实用。虽然它现在并不常用于实时计算机视觉解决方案,但它在体育、娱乐、教育和安全等领域的早期工作中发挥了重要作用。 

让我们仔细看看它如何在这些领域铺平道路。

用 OpenPose 估算健身和运动姿势

当你看棒球比赛时,很容易理解发生了什么——你可以立即识别出投球、挥杆或盗垒。 作为人类,我们可以凭直觉阅读身体动作,并在不费力的情况下理解它们。 但对于机器来说,识别这些动作要复杂得多。 它们需要关于身体每个部分如何在空间中移动的精确信息。

OpenPose 是计算机视觉领域的一大进步。它是一个在各种环境中分析运动形式的实用工具。

许多研究项目使用 OpenPose 来分解挥杆和跳跃等动作,甚至根据运动员的移动方式对特定的棒球动作进行分类。因为它可以在具有标准视频的开放环境中使用,所以研究人员可以测试此类系统在现实世界的训练或指导场景中可能如何发挥作用。

这些早期研究为现在先进的运动科技中使用的性能跟踪工具奠定了基础。

图 5. 基于 OpenPose 的棒球动作分类流程示例。

在安全系统中采用 OpenPose

同样,研究人员还利用 OpenPose 探索了基于视频的姿势估计 跟踪如何支持安全监控。该系统在检测 公共场所的跌倒、意外手势或移动模式等行为 方面进行了测试。

由于 OpenPose 可以与标准相机配合使用,因此在医院和交通枢纽等环境中,早期的实验变得更容易。这些研究帮助推动了新型号的开发,这些新型号现在被用于监控、跌倒检测和应急响应系统。

图 6. OpenPose 支持的跌倒检测。

OpenPose 的优缺点

以下是 OpenPose 提供的一些优势的简要介绍:

  • 对研究和原型设计很有用:它已广泛应用于学术研究,尤其是在人机交互、生物力学和行为分析等领域。
  • 跨平台支持: 它可以运行在 Windows、Linux 和 macOS 上,并支持中央处理器 (CPU) 和图形处理器 (GPU)
  • 离线处理能力: 它可以运行在没有互联网连接的环境中,使其成为医疗保健或教育等隐私敏感型设置的理想选择。

虽然 OpenPose 是向前迈出的重要一步,但它也存在一些重要的技术限制。以下是与 OpenPose 相关的一些主要挑战: 

  • 处理要求高: 实时运行 OpenPose 需要强大的GPU 和大量计算资源。
  • 对环境敏感:在光线不足、拥挤的空间或相机角度不理想的情况下,性能可能会下降。
  • 与较新的模型相比较重: 与较新的姿势估计 估计模型相比,OpenPose 的体积相对较大,速度也较慢。它不适合部署在智能手机、平板电脑或嵌入式系统等资源有限的设备上。

主要要点

OpenPose 在让人们更容易获得姿势估计 估计方面发挥了重要作用。它表明,跟踪身体运动可以通过一个简单的摄像头来完成,而无需依赖防护服或专业设备。

它为医疗、教育、娱乐和研究领域的许多实际应用奠定了基础。虽然现在更新的型号速度更快、性能更轻,但 OpenPose 仍然是了解姿势估计 估计如何发展的重要参考点。 

加入我们的社区,并访问我们的GitHub代码仓库,以了解更多关于AI的信息。如果您希望构建自己的计算机视觉解决方案,请探索我们的许可选项。此外,请了解医疗保健领域的计算机视觉物流领域的AI如何产生影响!

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始