如今,图像和摄像头无处不在——内置于我们的手机、家中,甚至公共场所。我们不仅依靠它们捕捉精彩瞬间,还依靠它们来理解并与周围的世界互动。
在幕后,人工智能 (AI) 的一个分支——计算机视觉,通过让机器解读视觉数据,实现了这一切。它使系统能够检测物体、识别人脸和追踪运动,在我们日常使用的许多技术中发挥着关键作用。
得益于人工智能的最新进展,计算机视觉模型现在可以分析和提取更复杂的数据和洞察。姿势估计就是一个例子,它是一项专注于理解人体运动的计算机视觉任务。
它的工作原理是识别图像或视频中身体的关键点,例如肩膀、肘部和膝盖。这使得分析人体运动方式成为可能,从而应用于健身追踪、动画、医疗保健等领域。
在众多用于姿势估计的工具中,OpenPose 脱颖而出,成为一项重大突破。它由卡内基梅隆大学感知计算实验室的研究人员创建,是首批能够仅使用一个摄像头实时检测多人全身姿势(包括手、脚和面部关键点)的开源系统之一(每人最多可获取 135 个关键点)。
在本文中,我们将探讨 OpenPose、它的工作原理以及它作为计算机视觉里程碑的意义。
在人工智能被广泛采用之前,追踪视频中的人体运动需要使用专门的设备。在电影和动画等行业,演员通常会穿着带有反光标记的服装,以便摄像机能够在受控的演播室环境中捕捉他们的动作。
虽然这些基于标记的动作捕捉技术非常精确,但它们成本高昂,并且受限于特定的设置。随着计算机视觉技术的进步,研究人员开始探索不使用标记来追踪身体运动的方法。他们利用边缘、轮廓和模板来在图像中寻找人体形状。
这些早期系统在简单直接的情况下运行良好,但在实际场景中却表现不佳。当人物以意想不到的方式移动,或者同一帧画面中出现多个人物时,系统往往无法准确识别。
2010 年代后期,深度学习为姿势估计带来了重大变革。视觉 AI 模型可以在大量人体姿势数据集上进行训练。这些模型不再依赖边缘和模板,而是通过研究数千张带标签的图像来学习识别身体关节和结构。这使得姿势估计在更广泛的场景下更加准确、灵活且有效。
OpenPose 于 2017 年首次发布,能够同时估计单幅图像中多个人的姿势。与旧系统不同,OpenPose 不需要特殊的服装或标记。它适用于标准相机,可以实时处理图像和视频。这些功能使开发人员和研究人员更容易进行姿势估计。
OpenPose 为计算机视觉奠定的基础帮助其他人为各种其他应用构建了更新的架构。如今,像Ultralytics YOLO8和Ultralytics YOLO11这样支持姿态估计任务的视觉 AI 模型能够更快地获得结果并降低延迟。
然而,如果你对姿态估计的演变过程感到好奇,OpenPose 是一个不错的起点。它引入了许多至今仍在使用的关键思想。
现在我们对 OpenPose 的重要性有了更好的理解,让我们仔细看看它实际上能做什么。
OpenPose 的核心功能是关键点检测。关键点是人体上的特定标志,例如鼻尖、肩部中心、肘部、手腕、臀部、膝盖和脚踝。OpenPose 最多可以为每个人检测 135 个关键点,包括手指和面部特征等细节区域。
当这些点连接起来时,它们就构成了人体的简化表示——你可以把它想象成一个数字骨架。这个骨架轮廓不仅显示了一个人的位置,还显示了他们的姿势:他们是坐着、站着、挥手、微笑还是行走。计算机可以利用这些骨架直观地解读人体动作,就像我们本能地理解某人的肢体语言一样。
骨骼追踪尤其有用,因为它可以消除背景噪音和干扰,让系统专注于人体的姿势和运动。OpenPose 并非分析每个像素,而是专注于那些能够展现人体如何运动或互动的有意义的点。
通过从日常图像或视频中提取这些结构化信息,OpenPose 可以构建响应手势、监控身体活动、评估情绪暗示甚至为数字角色制作动画的应用程序。
以下是 OpenPose 如何从视觉输入中检测和连接人体关键点的概述:
OpenPose 是首批将姿态估计应用于各种实际场景的先进工具之一。虽然它在当今的实时计算机视觉解决方案中并不常用,但它在塑造体育、娱乐、教育和安全等领域的早期工作中发挥了重要作用。
让我们仔细看看它是如何帮助在这些领域铺平道路的。
观看棒球比赛时,很容易理解正在发生的事情——你可以立即识别出投球、挥棒或盗垒。作为人类,我们能够直观地解读身体动作,并毫不费力地理解它们。但对于机器来说,识别这些动作要复杂得多。它们需要关于身体各个部位如何在空间中运动的精确信息。
OpenPose 是计算机视觉领域迈出的一大步,是一款在各种环境下分析运动姿势的实用工具。
许多研究项目使用 OpenPose 来分解挥杆和跳跃等动作,甚至根据球员的移动方式对特定的棒球动作进行分类。由于 OpenPose 可以在开放环境中使用标准视频运行,研究人员可以测试此类系统在现实世界的训练或指导场景中的表现。
这些早期的研究为现在先进体育技术中使用的性能跟踪工具奠定了基础。
同样,研究人员还使用 OpenPose 探索基于视频的姿势追踪如何支持安全监控。该技术已在检测跌倒、意外手势或公共场所的运动模式等行为方面进行了测试。
由于 OpenPose 兼容标准摄像头,它使得早期实验在医院和交通枢纽等环境中更容易进行。这些研究推动了如今用于监控、跌倒检测和应急响应系统的新型模型的开发。
以下是OpenPose提供的一些优势:
尽管OpenPose向前迈出了一大步,但它也存在一些需要牢记的技术限制。以下是OpenPose面临的一些关键挑战:
OpenPose 在使姿势估计更加便捷方面发挥了重要作用。它表明,只需一个简单的摄像头就可以追踪身体运动,而无需依赖套装或专用设备。
它为医疗保健、教育、娱乐和研究领域的众多实际应用奠定了基础。虽然现在更新的模型速度更快、性能更轻量,但 OpenPose 仍然是理解姿态估计发展历程的关键参考点。
加入我们的社区,访问我们的GitHub 代码库,了解更多关于 AI 的信息。如果您正在考虑构建自己的计算机视觉解决方案,欢迎探索我们的许可选项。此外,您还可以了解医疗保健领域的计算机视觉和物流领域的 AI如何产生影响!