敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

行动认可

探索动作识别(人类活动识别):视频、姿势估计和深度学习如何为医疗保健、安防和体育运动检测人类动作。

动作识别(Action Recognition)又称人类活动识别(HAR),是计算机视觉(CV)的一个领域,其重点是从一系列观察结果(通常是视频序列)中识别和理解人类动作。与在静态图像中识别物体的任务不同,动作识别分析运动和姿势随时间的变化,以确定人在做什么,如走路、跑步或挥手。这项功能使人工智能(AI)系统能够解读人类的动态行为,这对于创建交互性更强、更能感知上下文的应用程序至关重要。这项技术的全球市场正在迅速扩大,反映出它在各行各业日益增长的重要性。

行动识别的工作原理

动作识别系统处理主要来自视频的视觉数据,对人类动作进行分类。这一过程通常需要结合多种计算机视觉技术和深度学习(DL)模型。

  • 数据输入:系统通常从视频流或图像序列开始。这些数据可以使用标准摄像机或专用传感器采集。
  • 特征提取:从视频帧中提取关键信息。这通常从物体检测等基础任务开始,以确定场景中的人物位置。随后,物体跟踪用于在多个帧中跟踪人物,从而对他们的运动形成时间上的理解。
  • 动作分析:为了了解具体的动作,模型通常依赖于姿势估计(Pose Estimation),它可以识别和跟踪关键的身体关节。通过分析这些关键点随时间的移动,系统可以区分类似的动作,如行走和跑步。
  • 分类:先进的神经网络架构,如3D 卷积神经网络卷积 神经网络 (CNN)递归神经网络 (RNN) 的组合,用于将动作序列分类为预定义的动作类别。训练数据通常来自 Kinetics 或 UCF101 等大型基准数据集,其质量对模型的准确性至关重要。

行动识别与相关概念

要理解行动识别的独特作用,就必须将其与其他相关的简历任务区分开来。

  • 动作识别与图像识别: 图像识别主要是对单张静态图像中的物体或场景进行识别和分类。而动作识别则在此基础上进行了扩展,通过分析一连串的图像来了解一段时间内的动态事件和动作。
  • 动作识别与视频理解视频理解是一个包含动作识别的更广泛的领域。动作识别专门侧重于识别动作,而视频理解则旨在更全面地理解视频内容,包括场景变化、物体互动和整体叙事。例如,识别出一个人正在开门就是动作识别;而理解他们正在进入房间向某人打招呼则是视频理解的一部分。
  • 动作识别与姿势估计: 姿势估计是动作识别系统中常用的一个组件,通过定位关节来确定人的姿势。姿势估计提供身体定位的原始数据,而动作识别则解释这些姿势的序列,对正在执行的动作进行分类。

实际应用

动作识别是许多现代人工智能系统背后的一项关键技术,使它们能够以更复杂的方式与物理世界互动并理解物理世界。

  • 医疗保健和老年人护理:在医疗保健领域的人工智能中,动作识别系统可以监控病人,确保他们的安全和健康。例如,这些系统可部署在医院或家庭中,当老人跌倒时自动检测并发出警报,以便立即提供援助。它们还可用于身体康复,监测患者是否正确进行锻炼。
  • 智能监控和安防:除了简单的运动检测外,动作识别还能通过识别特定行为来加强安全监控。可以对系统进行培训,以检测可疑活动,如在禁区内闲逛或破坏行为,并实时通知安保人员。这样就能采取更加积极主动的安保方法。
  • 体育分析:在体育分析中,教练和分析师利用动作识别技术自动分析球员的动作,跟踪表现指标,并识别比赛中的战术模式。
  • 人机交互:动作识别是为从游戏机到智能家居设备等各种设备开发基于手势的控制系统的基础,可让用户在没有物理控制器的情况下更自然地与技术进行交互。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板