深圳尤洛视觉
深圳
立即加入

AI 可以检测人类行为吗?探索活动识别

Abirami Vina

6 分钟阅读

2025年9月22日

从健身应用程序到患者监控,了解计算机视觉如何解决以下问题:人工智能能否在现实环境中检测人类行为?

日常生活充满了我们很少停下来思考的小动作。在一个房间里走动、坐在桌子旁或向朋友挥手对我们来说可能毫不费力,但用 AI 检测它们要复杂得多。对人类来说很自然的事情,当机器试图理解它时,会变得更加复杂。

这种能力被称为人体活动识别 (HAR),它使计算机能够检测和解释人类行为的模式。健身应用程序是 HAR 在实践中的一个很好的例子。通过跟踪步数和锻炼计划,它展示了人工智能如何监控日常活动。 

看到 HAR 的潜力,许多行业已经开始采用这项技术。事实上,预计到 2033 年,人类动作识别市场将达到 125.6 亿美元以上。

这一进展的很大一部分是由计算机视觉驱动的,计算机视觉是人工智能的一个分支,使机器能够分析视觉数据,例如图像和视频。借助计算机视觉和图像识别,HAR 已从研究概念演变为前沿人工智能应用中一个实用且令人兴奋的组成部分。 

在本文中,我们将探讨什么是 HAR、用于识别人类行为的不同方法,以及计算机视觉如何帮助回答这个问题:AI 可以在现实世界的应用中检测人类行为吗?让我们开始吧!

什么是人类行为识别?

人体行为识别技术通过分析身体动作,使计算机系统能够理解人类的活动或行为。与简单地检测图像中的人不同,HAR可以帮助识别该人在做什么。例如,区分行走和跑步,识别挥手,或者注意到有人摔倒。

HAR 的基础在于运动和姿势的模式。人体的手臂或腿部的姿势略有变化,就可以发出各种动作的信号。通过捕获和解释这些细微的细节,HAR 系统可以从身体运动中获得有意义的见解。

为了实现这一点,人类行为识别结合了多种技术,例如机器学习、深度学习模型、计算机视觉和图像处理,它们协同工作以分析身体动作,并以更高的精度解释人类行为。 

图 1. 人类活动识别涉及不同的计算机科学分支 (来源)

早期的 HAR 系统更加有限。 它们只能处理受控环境中的一些简单、重复的动作,并且在现实环境中经常会遇到困难。 

如今,得益于人工智能和大量的视频数据,HAR在准确性和鲁棒性方面都取得了显著进展。现代系统能够以更高的准确性识别各种活动,使该技术在医疗保健、安全和交互设备等领域具有实用性。

检测人类行为的不同方法

既然我们对人类行为识别有了更深入的了解,那么让我们来看看机器检测人类行为的不同方式。 

以下是一些常用方法:

  • 基于传感器的方法: 诸如加速计、可穿戴设备和智能手机之类的智能设备可以直接从人体捕获信号。它们可以显示诸如行走、跑步甚至静止站立之类的运动模式。智能手表上的计步器就是此方法的一个很好的例子。
  • 基于视觉的方法: 相机与计算机视觉结合,分析图像和视频,逐帧跟踪身体的外观和运动。这能够识别更复杂的活动。手势控制电视或游戏系统依赖于这种方法。
  • 多模态方法: 它是传感器和摄像头的组合,可以创建一个更可靠的系统,因为一个来源可以确认另一个来源检测到的内容。例如,可穿戴设备可以记录运动,而摄像头可以验证姿势,这种设置通常用于老年人护理中的跌倒检测。

数据集在人体行为识别中的作用

对于任何 HAR 模型或系统,数据集 都是起点。HAR 数据集是示例的集合,例如视频剪辑、图像或传感器数据,这些示例捕获了诸如行走、坐着或挥手等动作。这些示例用于训练 AI 模型以识别人类运动中的模式,然后可以将其应用于现实生活中的应用程序。 

训练数据的质量直接影响模型执行的良好程度。干净、一致的数据使系统更容易准确识别操作。 

因此,数据集通常在训练前进行预处理。一个常见的步骤是归一化,它以一致的方式缩放值,以减少误差并防止过拟合(模型在训练数据上表现良好,但在新数据上表现不佳)。

为了衡量模型在训练之外的表现,研究人员依赖于评估指标和基准数据集,这些指标和数据集允许进行公平的测试和比较。流行的集合(如 UCF101、HMDB51 和 Kinetics)包括数千个用于人类动作检测的标记视频剪辑。在传感器方面,从智能手机和可穿戴设备收集的数据集提供了有价值的运动信号,使识别模型在不同的环境中更加稳健。

图 2. 人类活动识别数据集的一瞥。(来源

计算机视觉如何支持人类活动识别

在检测人类行为的各种方法中,计算机视觉已迅速成为最受欢迎和研究最广泛的方法之一。它的主要优势在于它可以直接从图像和视频中提取丰富的细节。通过逐帧查看像素并分析运动模式,它可以实时识别活动,而无需人们佩戴额外的设备。

深度学习,特别是卷积神经网络 (CNN) 的最新进展(CNN 旨在分析图像)使计算机视觉变得更快、更准确、更可靠。 

例如,像 Ultralytics YOLO11 这样广泛使用的先进计算机视觉模型,正是建立在这些进步的基础之上。YOLO11 支持诸如目标检测、实例分割、视频帧中人员跟踪以及人体姿态估计等任务,使其成为人体活动识别的绝佳工具。

Ultralytics YOLO11 概述

Ultralytics YOLO11 是一种为速度和精度而设计的视觉 AI 模型。它支持核心计算机视觉任务,例如目标检测、目标跟踪和姿态估计。这些功能对于人体活动识别特别有用。

目标检测识别并定位场景中的人物,跟踪跟随他们在视频帧中的移动以识别动作序列,姿势估计映射关键的人体关节以区分相似的活动或检测突然的变化,例如跌倒。 

例如,可以利用模型提供的洞察力来区分一个人安静地坐着、然后站起来,最后举起双臂欢呼。这些简单的日常动作乍一看可能很相似,但如果在序列中分析,则具有非常不同的含义。

图 3. 使用 Ultralytics YOLO11 进行姿势估计。(来源

计算机视觉和 HAR 的真实应用

接下来,让我们仔细了解计算机视觉驱动的人体活动识别技术如何在影响我们日常生活的实际应用中使用。

医疗保健和福祉

医疗保健领域,运动中的微小变化可以为了解一个人的状况提供有用的见解。例如,老年患者的绊倒或康复期间肢体的角度可能会揭示风险或进展。这些迹象通常很容易被传统方法(如检查)所忽略。 

YOLO11 可以通过使用姿态估计和图像分析来实时监控患者,从而提供帮助。它可以用于检测跌倒、跟踪康复锻炼以及观察日常活动(如行走或伸展运动)。因为它通过视觉分析工作,而无需传感器或可穿戴设备,因此它提供了一种收集准确信息的简单方法,从而为患者护理提供支持。

图 4. 使用 YOLO11 的姿势估计支持来跟踪身体运动。(来源

安全与监控

安全系统依赖于快速检测到不寻常的人类活动,例如有人徘徊、在限制区域内奔跑或表现出突然的攻击性。在繁忙的环境中,这些迹象经常被忽略,因为保安人员无法手动监视所有内容。这就是计算机视觉和 YOLO11 的用武之地。 

YOLO11 通过支持实时视频监控来简化 安全监控,该监控可以检测可疑移动并发送即时警报。它支持公共场所的人群安全,并加强私人区域的入侵检测。 

通过这种方法,保安人员可以与计算机视觉系统协同工作,创建人机交互和伙伴关系,从而能够更快、更及时地响应可疑活动。

使用计算机视觉进行 HAR 的优缺点

以下是使用计算机视觉进行人体活动识别的一些优势:

  • 可扩展性:设置完成后,同一识别系统可以自动同时监控多人,使其可用于医疗机构、工厂和公共场所的自动化。
  • 实时处理: 视觉 AI 解决方案 可用于分析正在发生的视频流,从而实现更快的响应。
  • 非侵入式跟踪: 与可穿戴设备或传感器不同,它不需要人们携带设备,从而可以进行自然而轻松的行为分析。 

虽然使用计算机视觉进行 HAR 有很多好处,但也存在一些局限性需要考虑。以下是一些需要记住的因素:  

  • 隐私问题:基于视频的监控可能会引发关于数据保护和同意的问题,尤其是在家庭或工作场所等敏感环境中。
  • 潜在偏差: 如果训练数据集缺乏多样性,算法可能会错误地解释某些人群的行为,从而导致不公平或不准确的结果。
  • 环境敏感性:由于光线不足、背景杂乱或人员部分隐藏,准确性可能会下降,这意味着需要仔细设计系统。

主要要点

人工智能和计算机视觉使机器能够更准确、实时地识别人类行为。通过分析视频帧和运动模式,这些系统可以识别日常手势和突发变化。随着技术的不断进步,人类活动识别正在走出研究实验室,成为医疗保健、安全和日常应用的实用工具。

访问我们的GitHub 仓库并加入我们的社区,了解更多关于 AI 的信息。查看我们的解决方案页面,了解机器人技术中的 AI制造业中的计算机视觉。探索我们的许可选项,开始使用视觉 AI。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板