了解 OpenPose 如何用于计算机视觉应用中的姿势估计。了解其特性及其在视觉 AI 中的重要性。

了解 OpenPose 如何用于计算机视觉应用中的姿势估计。了解其特性及其在视觉 AI 中的重要性。
如今,图像和摄像头随处可见——内置于我们的手机、家庭甚至公共场所。我们不仅依靠它们来捕捉瞬间,还依靠它们来帮助我们理解和与周围的世界互动。
在幕后,计算机视觉,即人工智能(AI)的一个子领域,通过使机器能够解释视觉数据来实现这一点。它允许系统检测物体、识别人脸和跟踪运动,在许多我们每天使用的技术中发挥着关键作用。
得益于 AI 的最新进展,计算机视觉模型现在可以分析和提取更复杂的数据和见解。其中一个例子是姿势估计,这是一项专注于理解人类运动的计算机视觉任务。
它的工作原理是识别图像或视频中身体的关键点,例如肩膀、肘部和膝盖。这使得分析人们的运动方式成为可能,从而实现健身追踪、动画、医疗保健等领域的应用。
在众多为姿态估计开发的工具中,OpenPose 是一项重大突破。它由卡内基梅隆大学感知计算实验室的研究人员创建,是最早能够检测全身姿态(包括手、脚和面部关键点)的开源系统之一,仅使用一个摄像头即可实时检测多人姿态(每人最多 135 个关键点)。
在本文中,我们将探讨 OpenPose、它的工作原理以及它作为计算机视觉领域里程碑的意义。
在人工智能被广泛采用之前,视频中人体运动的跟踪需要使用专用设备。在电影和动画等行业中,演员通常穿着带有反光标记的服装,以便摄像机可以在受控的演播室环境中捕捉他们的动作。
虽然这些基于标记的运动捕捉技术很准确,但它们也很昂贵,并且仅限于特定的设置。随着计算机视觉的发展,研究人员开始寻找无需使用标记即可跟踪身体运动的方法。他们使用边缘、轮廓和模板来查找图像中的人体形状。
这些早期系统在简单直接的实例中有效,但在现实场景中却步履维艰。当人们以意想不到的方式移动或当一个画面中出现多个人时,它们的结果往往很差。
在 2010 年代后期,深度学习给姿势估计带来了重大转变。视觉 AI 模型可以在大量人体姿势数据集上进行训练。这些模型不再依赖于边缘和模板,而是通过研究数千张标记图像来学习识别身体关节和结构。这使得姿势估计在更广泛的设置中更加准确、灵活和有影响力。
OpenPose 于 2017 年首次发布,能够同时估计单张图像中多个人的姿势。与旧系统不同,OpenPose 不需要特殊的服装或标记。它可以与标准相机配合使用,并可以实时处理图像和视频。这些功能使开发人员和研究人员更容易获得姿势估计。
OpenPose 为计算机视觉奠定的基础帮助其他人为各种其他应用构建了更新的架构。如今,支持姿势估计任务的 Vision AI 模型(如 Ultralytics YOLO8 和 Ultralytics YOLO11)可提供更快的速度和更低的延迟。
然而,如果您对姿势估计的发展历程感到好奇,OpenPose 是一个很好的起点。它引入了许多较新的系统仍在依赖的关键思想。
既然我们对OpenPose的重要性有了更深入的了解,那么让我们仔细看看它实际上能做什么。
OpenPose 功能的核心是所谓的关键点检测。关键点是人体上的特定地标,例如鼻尖、肩部中心、肘部、手腕、臀部、膝盖和脚踝。OpenPose 可以检测到每个人最多 135 个这样的点,包括手指和面部特征等详细区域。
当这些点连接起来时,它们形成了人体的一个简化表示——你可以把它想象成一个数字骨架。 这个骨骼轮廓不仅显示了一个人在哪里,还显示了他们的姿势:他们是坐着、站着、挥手、微笑还是走路。 计算机可以使用这些骨架在视觉上解释人类的运动,就像我们本能地理解某人的肢体语言一样。
骨骼跟踪特别有用,因为它消除了背景噪音和干扰,让系统可以纯粹地关注人体姿势和运动。OpenPose 不分析每个像素,而是专注于有意义的点,这些点讲述了一个人如何移动或互动的过程。
通过从日常图像或视频中提取这种结构化信息,OpenPose 可以构建能够响应手势、监控身体活动、评估情绪线索甚至动画数字角色的应用程序。
以下概述了 OpenPose 如何从视觉输入中检测和连接人体上的关键点:
OpenPose 是首批使姿势估计能够实际应用于各种实际用例的先进工具之一。虽然它现在在实时计算机视觉解决方案中并不常用,但它在塑造体育、娱乐、教育和安全等领域的早期工作方面发挥了重要作用。
让我们仔细看看它如何在这些领域铺平道路。
当你看棒球比赛时,很容易理解发生了什么——你可以立即识别出投球、挥杆或盗垒。 作为人类,我们可以凭直觉阅读身体动作,并在不费力的情况下理解它们。 但对于机器来说,识别这些动作要复杂得多。 它们需要关于身体每个部分如何在空间中移动的精确信息。
OpenPose 是计算机视觉领域的一大进步。它是一个在各种环境中分析运动形式的实用工具。
许多研究项目使用 OpenPose 来分解挥杆和跳跃等动作,甚至根据运动员的移动方式对特定的棒球动作进行分类。因为它可以在具有标准视频的开放环境中使用,所以研究人员可以测试此类系统在现实世界的训练或指导场景中可能如何发挥作用。
这些早期研究为现在先进的运动科技中使用的性能跟踪工具奠定了基础。
同样,研究人员还使用 OpenPose 来探索基于视频的姿势跟踪如何支持安全监控。它在检测行为(如跌倒、意外手势或公共区域的运动模式)方面进行了测试。
由于 OpenPose 可以与标准相机配合使用,因此在医院和交通枢纽等环境中,早期的实验变得更容易。这些研究帮助推动了新型号的开发,这些新型号现在被用于监控、跌倒检测和应急响应系统。
以下是 OpenPose 提供的一些优势的简要介绍:
虽然 OpenPose 是向前迈出的重要一步,但它也存在一些重要的技术限制。以下是与 OpenPose 相关的一些主要挑战:
OpenPose 在使姿势估计更容易获得方面发挥了重要作用。它表明,无需依赖服装或专用设备,只需一个简单的摄像头即可跟踪身体运动。
它为医疗保健、教育、娱乐和研究等领域的许多实际应用奠定了基础。虽然更新的模型现在提供更快的速度和更轻的性能,但 OpenPose 仍然是理解姿态估计如何演变的关键参考点。
加入我们的社区,并访问我们的GitHub代码仓库,以了解更多关于AI的信息。如果您希望构建自己的计算机视觉解决方案,请探索我们的许可选项。此外,请了解医疗保健领域的计算机视觉和物流领域的AI如何产生影响!