敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

什么是 OpenPose? 探索姿态估计的一个里程碑

Abirami Vina

5 分钟阅读

2025年6月17日

了解 OpenPose 如何用于计算机视觉应用中的姿势估计。了解其特性及其在视觉 AI 中的重要性。

如今,图像和摄像头随处可见——内置于我们的手机、家庭甚至公共场所。我们不仅依靠它们来捕捉瞬间,还依靠它们来帮助我们理解和与周围的世界互动。 

在幕后,计算机视觉,即人工智能(AI)的一个子领域,通过使机器能够解释视觉数据来实现这一点。它允许系统检测物体、识别人脸和跟踪运动,在许多我们每天使用的技术中发挥着关键作用。 

得益于 AI 的最新进展,计算机视觉模型现在可以分析和提取更复杂的数据和见解。其中一个例子是姿势估计,这是一项专注于理解人类运动的计算机视觉任务。 

它的工作原理是识别图像或视频中身体的关键点,例如肩膀、肘部和膝盖。这使得分析人们的运动方式成为可能,从而实现健身追踪、动画、医疗保健等领域的应用。

在众多为姿态估计开发的工具中,OpenPose 是一项重大突破。它由卡内基梅隆大学感知计算实验室的研究人员创建,是最早能够检测全身姿态(包括手、脚和面部关键点)的开源系统之一,仅使用一个摄像头即可实时检测多人姿态(每人最多 135 个关键点)。

在本文中,我们将探讨 OpenPose、它的工作原理以及它作为计算机视觉领域里程碑的意义。

图 1. 使用 OpenPose 进行多人姿势估计。

姿态估计历史概览

在人工智能被广泛采用之前,视频中人体运动的跟踪需要使用专用设备。在电影和动画等行业中,演员通常穿着带有反光标记的服装,以便摄像机可以在受控的演播室环境中捕捉他们的动作。 

虽然这些基于标记的运动捕捉技术很准确,但它们也很昂贵,并且仅限于特定的设置。随着计算机视觉的发展,研究人员开始寻找无需使用标记即可跟踪身体运动的方法。他们使用边缘、轮廓和模板来查找图像中的人体形状。

这些早期系统在简单直接的实例中有效,但在现实场景中却步履维艰。当人们以意想不到的方式移动或当一个画面中出现多个人时,它们的结果往往很差。

在 2010 年代后期,深度学习给姿势估计带来了重大转变。视觉 AI 模型可以在大量人体姿势数据集上进行训练。这些模型不再依赖于边缘和模板,而是通过研究数千张标记图像来学习识别身体关节和结构。这使得姿势估计在更广泛的设置中更加准确、灵活和有影响力。

图 2. 从 2017 年到 2023 年的人体姿势估计模型的演变。

OpenPose:现代姿势估计的起点

OpenPose 于 2017 年首次发布,能够同时估计单张图像中多个人的姿势。与旧系统不同,OpenPose 不需要特殊的服装或标记。它可以与标准相机配合使用,并可以实时处理图像和视频。这些功能使开发人员和研究人员更容易获得姿势估计。

OpenPose 为计算机视觉奠定的基础帮助其他人为各种其他应用构建了更新的架构。如今,支持姿势估计任务的 Vision AI 模型(如 Ultralytics YOLO8Ultralytics YOLO11)可提供更快的速度和更低的延迟。 

图 3. 使用 YOLO11 进行姿势估计。

然而,如果您对姿势估计的发展历程感到好奇,OpenPose 是一个很好的起点。它引入了许多较新的系统仍在依赖的关键思想。 

OpenPose 的主要功能

既然我们对OpenPose的重要性有了更深入的了解,那么让我们仔细看看它实际上能做什么。

OpenPose 功能的核心是所谓的关键点检测。关键点是人体上的特定地标,例如鼻尖、肩部中心、肘部、手腕、臀部、膝盖和脚踝。OpenPose 可以检测到每个人最多 135 个这样的点,包括手指和面部特征等详细区域。

当这些点连接起来时,它们形成了人体的一个简化表示——你可以把它想象成一个数字骨架。 这个骨骼轮廓不仅显示了一个人在哪里,还显示了他们的姿势:他们是坐着、站着、挥手、微笑还是走路。 计算机可以使用这些骨架在视觉上解释人类的运动,就像我们本能地理解某人的肢体语言一样。

骨骼跟踪特别有用,因为它消除了背景噪音和干扰,让系统可以纯粹地关注人体姿势和运动。OpenPose 不分析每个像素,而是专注于有意义的点,这些点讲述了一个人如何移动或互动的过程。

通过从日常图像或视频中提取这种结构化信息,OpenPose 可以构建能够响应手势、监控身体活动、评估情绪线索甚至动画数字角色的应用程序。

OpenPose 的工作原理是什么? 

以下概述了 OpenPose 如何从视觉输入中检测和连接人体上的关键点:

  • 从图像开始:OpenPose 从照片、视频或实时摄像头 feed 中获取单个图像。
  • 识别重要的身体部位:该系统寻找身体上的关键点,如鼻子、肘部、手腕、膝盖和脚踝。无论系统确信身体部位在哪里,都会被标记出来。
  • 确定哪些部分组合在一起:接下来,OpenPose 检查关键点是如何连接的。它使用数学计算来确定哪些关节属于同一个人 - 例如,将手腕与右肘和肩膀匹配。
  • 绘制每个人的骨骼:在对关键点进行分组后,OpenPose将它们连接成一个“火柴人”,以显示每个人的姿势。 即使同个画面中出现多个人,此方法也有效。
  • 返回姿势数据:最后,它提供所有检测到的关键点的确切位置。这些可用于跟踪运动、识别手势或构建交互式工具 - 所有这些都是实时的。
图 4. 使用 OpenPose 进行人体关键点检测和跟踪。

使用 OpenPose 的跨行业姿态估计应用 

OpenPose 是首批使姿势估计能够实际应用于各种实际用例的先进工具之一。虽然它现在在实时计算机视觉解决方案中并不常用,但它在塑造体育、娱乐、教育和安全等领域的早期工作方面发挥了重要作用。 

让我们仔细看看它如何在这些领域铺平道路。

使用 OpenPose 进行健身和运动的姿态估计

当你看棒球比赛时,很容易理解发生了什么——你可以立即识别出投球、挥杆或盗垒。 作为人类,我们可以凭直觉阅读身体动作,并在不费力的情况下理解它们。 但对于机器来说,识别这些动作要复杂得多。 它们需要关于身体每个部分如何在空间中移动的精确信息。

OpenPose 是计算机视觉领域的一大进步。它是一个在各种环境中分析运动形式的实用工具。

许多研究项目使用 OpenPose 来分解挥杆和跳跃等动作,甚至根据运动员的移动方式对特定的棒球动作进行分类。因为它可以在具有标准视频的开放环境中使用,所以研究人员可以测试此类系统在现实世界的训练或指导场景中可能如何发挥作用。

这些早期研究为现在先进的运动科技中使用的性能跟踪工具奠定了基础。

图 5. 基于 OpenPose 的棒球动作分类流程示例。

在安全系统中采用 OpenPose

同样,研究人员还使用 OpenPose 来探索基于视频的姿势跟踪如何支持安全监控。它在检测行为(如跌倒、意外手势或公共区域的运动模式)方面进行了测试。

由于 OpenPose 可以与标准相机配合使用,因此在医院和交通枢纽等环境中,早期的实验变得更容易。这些研究帮助推动了新型号的开发,这些新型号现在被用于监控、跌倒检测和应急响应系统。

图 6. OpenPose 支持的跌倒检测。

OpenPose 的优缺点

以下是 OpenPose 提供的一些优势的简要介绍:

  • 对研究和原型设计很有用:它已广泛应用于学术研究,尤其是在人机交互、生物力学和行为分析等领域。
  • 跨平台支持: 它可以运行在 Windows、Linux 和 macOS 上,并支持中央处理器 (CPU) 和图形处理器 (GPU)
  • 离线处理能力: 它可以运行在没有互联网连接的环境中,使其成为医疗保健或教育等隐私敏感型设置的理想选择。

虽然 OpenPose 是向前迈出的重要一步,但它也存在一些重要的技术限制。以下是与 OpenPose 相关的一些主要挑战: 

  • 高处理要求: 实时运行 OpenPose 需要强大的 GPU 和大量的计算资源。
  • 对环境敏感:在光线不足、拥挤的空间或相机角度不理想的情况下,性能可能会下降。
  • 与较新的模型相比,体积较大:与较新的姿势估计模型相比,OpenPose相对较大且速度较慢。它不太适合部署在资源有限的设备上,如智能手机、平板电脑或嵌入式系统。

主要要点

OpenPose 在使姿势估计更容易获得方面发挥了重要作用。它表明,无需依赖服装或专用设备,只需一个简单的摄像头即可跟踪身体运动。

它为医疗保健、教育、娱乐和研究等领域的许多实际应用奠定了基础。虽然更新的模型现在提供更快的速度和更轻的性能,但 OpenPose 仍然是理解姿态估计如何演变的关键参考点。 

加入我们的社区,并访问我们的GitHub代码仓库,以了解更多关于AI的信息。如果您希望构建自己的计算机视觉解决方案,请探索我们的许可选项。此外,请了解医疗保健领域的计算机视觉物流领域的AI如何产生影响!

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板