日常生活中充满了细微的动作,我们很少会停下来思考。走过房间、坐在办公桌前或向朋友挥手,我们可能觉得毫不费力,但用人工智能检测这些动作却要复杂得多。当机器试图理解人类自然而然的动作时,这些动作就会变得复杂得多。
这种能力被称为人类活动识别(HAR),它使计算机能够检测和解释人类行为的模式。一款健身应用程序就是 HAR 的一个很好的应用实例。通过跟踪步数和锻炼程序,它展示了人工智能如何监控日常活动。
看到 HAR 的潜力,许多行业都开始采用这项技术。事实上,到 2033 年,人类动作识别市场预计将达到 125.6 亿美元。
计算机视觉是人工智能的一个分支,它使机器能够分析图像和视频等视觉数据。随着计算机视觉和图像识别技术的发展,HAR 已从一个研究概念发展成为人工智能尖端应用中一个实用而令人兴奋的部分。
在本文中,我们将探讨什么是 HAR、用于识别人类动作的不同方法,以及计算机视觉如何帮助回答这个问题:人工智能能否在现实世界的应用中检测人类动作?让我们开始吧!
人体动作识别可以让计算机系统通过分析人体动作来理解人的活动或动作。与简单地检测图像中的人不同,HAR 可以帮助识别人在做什么。例如,区分行走和奔跑、识别挥手或注意到有人跌倒。
HAR 的基础在于动作和姿势的模式。人类手臂或腿部位置的细微变化都可能预示着各种动作。通过捕捉和解读这些微妙的细节,HAR 系统可以从肢体动作中获得有意义的见解。
为此,人类动作识别结合了机器学习、深度学习模型、计算机视觉和图像处理等多种技术,共同分析肢体动作,并以更高的准确度解读人类动作。
早期的 HAR 系统局限性更大。它们只能在受控环境中处理一些简单的重复性动作,在实际环境中往往力不从心。
如今,得益于人工智能和大量视频数据,HAR 在准确性和鲁棒性方面都取得了显著进步。现代系统可以更准确地识别各种活动,使该技术在医疗保健、安防和交互设备等领域变得实用。
既然我们已经对什么是人类动作识别有了更深入的了解,那就让我们来看看机器检测人类动作的不同方法吧。
以下是一些常见的方法:
对于任何 HAR 模型或系统来说,数据集都是起点。合成孔径雷达数据集是视频剪辑、图像或传感器数据等示例的集合,可捕捉行走、坐姿或挥手等动作。这些示例用于训练人工智能模型,以识别人类动作的模式,然后将其应用于实际生活中。
训练数据的质量直接影响模型的性能。干净、一致的数据能让系统更容易准确识别动作。
这就是为什么数据集通常会在训练前进行预处理。其中一个常见的步骤是归一化,即对数值进行一致的缩放,以减少误差并防止过拟合(即模型在训练数据上表现良好,但在新数据上却很吃力)。
为了衡量模型在训练后的表现,研究人员依赖于可进行公平测试和比较的评估指标和基准数据集。像 UCF101、HMDB51 和 Kinetics 这样的流行数据集包含了数千个用于人类动作检测的标记视频片段。在传感器方面,从智能手机和可穿戴设备收集的数据集提供了宝贵的运动信号,使识别模型在不同环境下更加稳健。
在检测人类行为的各种方法中,计算机视觉已迅速成为最受欢迎和研究最广泛的方法之一。它的主要优势在于可以直接从图像和视频中提取丰富的细节。通过逐帧查看像素和分析运动模式,它可以实时识别活动,而无需人们佩戴额外的设备。
深度学习,特别是用于分析图像的卷积神经网络(CNN)的最新进展,使计算机视觉变得更快、更准确、更可靠。
例如,Ultralytics YOLO11等广泛使用的最先进计算机视觉模型就是建立在这些进步之上的。YOLO11 支持物体检测、实例分割、跨视频帧跟踪人物和估计人物姿势等任务,是人类活动识别的绝佳工具。
Ultralytics YOLO11 是一款视觉人工智能模型,其设计兼顾速度与精度。它支持对象检测、对象跟踪和姿态估计等核心计算机视觉任务。这些功能尤其适用于人类活动识别。
物体检测可识别和定位场景中的人物,跟踪可跟踪人物在视频帧中的移动以识别动作序列,姿势估计可映射人体关键关节以区分类似活动或检测突然变化(如跌倒)。
例如,从模型中获得的洞察力可以用来区分一个人从安静地坐着,到站起来,再到最后举起手臂欢呼。这些简单的日常动作一眼看上去可能很相似,但如果按顺序进行分析,其含义却大相径庭。
接下来,让我们来看看计算机视觉驱动的人类活动识别技术是如何应用于影响我们日常生活的实际案例中的。
在医疗保健领域,微小的运动变化都能为了解一个人的状况提供有用的信息。例如,老年患者的一个踉跄或康复过程中肢体的角度都可能揭示风险或进展。这些迹象通常很容易被检查等传统手段所忽略。
YOLO11 可以通过姿势估计和图像分析来帮助实时监控病人。它可用于检测跌倒、跟踪恢复练习以及观察步行或伸展等日常活动。由于它通过视觉分析工作,无需传感器或可穿戴设备,因此它提供了一种简单的方法来收集准确的信息,从而为患者护理提供支持。
安防系统依赖于快速检测异常的人类活动,例如有人在禁区内闲逛、奔跑或表现出突然的攻击性。在繁忙的环境中,这些迹象往往会被遗漏,因为保安人员无法手动监视一切。这就是计算机视觉和 YOLO11 的用武之地。
YOLO11 支持实时视频监控,可侦测可疑动向并发送即时警报,使安防监控变得更加简单。它支持公共场所的人群安全,并加强私人区域的入侵检测。
有了这种方法,保安人员可以与计算机视觉系统一起工作,形成人机互动和伙伴关系,从而更快、更及时地应对可疑活动。
以下是使用计算机视觉识别人类活动的一些优势:
在 HAR 中使用计算机视觉技术有很多好处,但也有一些限制因素需要考虑。以下是一些需要注意的因素:
人工智能和计算机视觉使机器更准确、更实时地识别人类动作成为可能。通过分析视频帧和运动模式,这些系统可以识别日常手势和突然变化。随着技术的不断进步,人类活动识别正走出研究实验室,成为医疗保健、安全和日常应用的实用工具。
访问我们的GitHub 存储库并加入我们的社区,探索有关人工智能的更多信息。查看我们的解决方案页面,了解机器人中的人工智能和 制造业中的计算机视觉。了解我们的许可选项,开始使用 Vision AI。