深圳Yolo 视觉
深圳
立即加入
词汇表

行动认可

探索动作识别(人类活动识别):视频、姿势估计 和深度学习如何为医疗保健、安全和体育detect 人类动作。

动作识别通常被称为人类活动识别 (HAR),是计算机视觉 (CV) 的一个专门子集。 计算机视觉 (CV)的一个专门子集,其重点是对视频数据中的特定动作或行为进行识别和分类。 对视频数据中的特定动作或行为进行识别和分类。与标准的 图像识别通过分析静态帧来检测物体 不同,动作detect 结合了时间维度来理解动态事件。通过处理 图像序列、 人工智能(AI)系统可以 区分行走、奔跑、挥手或跌倒等动作。这种能力对于创建 这种能力对于创建能够解释真实世界环境中人类行为的系统至关重要,它弥补了看到像素和理解意图之间的差距。 理解意图之间的差距。

核心作用机制识别

要准确识别动作、 深度学习 (DL)模型必须提取两类 特征:空间特征和时间特征。空间特征描述场景的视觉外观,例如是否存在人或物体。 通常通过 卷积神经网络(CNN)提取。时间特征描述这些空间元素如何随时间变化。

现代方法通常使用的管道包括

  • 物体检测系统 有效定位画面中的个人。最先进的模型如 YOLO11等先进模型因其速度快、精度高 准确性。
  • 姿势估计这种技术可以 人体骨骼结构,跟踪 肘、膝盖和肩膀等关键点。这些点之间的 这些点之间的几何关系为动作分类提供了可靠的信号。 动作。
  • 时间分析:使用专为时间序列数据设计的架构来处理数据序列,如 数据进行处理,例如 递归神经网络 (RNN)长短期记忆(LSTM) 网络。最近,视频变换器 因其能够模拟视频流中的长距离依赖关系而广受欢迎。

下面的Python 示例演示了如何使用 ultralytics 从视频中提取姿势估计 关键点的姿势估计 库 它是许多动作识别系统的基础数据层。

from ultralytics import YOLO

# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")

# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)

for result in results:
    # Keypoints can be analyzed over time to determine actions
    keypoints = result.keypoints.xyn  # Normalized x, y coordinates
    print(keypoints)

相关性和实际应用

自动解读人体运动的能力已被各行各业广泛采用。 全球 人类活动识别市场 的全球市场将继续扩大,因为各行各业都在寻求将实际工作流程数字化。

医疗保健与患者安全

医疗保健领域的人工智能中,动作识别对自动监控病人至关重要。 识别对于自动监控病人至关重要。可以对系统进行训练,以detect 医院或 辅助生活设施中的跌倒,并立即向工作人员发出警报。此外,计算机视觉还能 远程物理康复 此外,计算机视觉还能通过实时分析病人的运动形式,确保他们正确地完成动作,从而帮助康复并防止受伤,从而促进远程物理康复。

体育分析

教练和转播人员利用 人工智能在体育运动中的应用 分解运动员的表现。动作识别算法可自动标记比赛录像中的事件,如篮球投篮、网球发球或足球传球。 如篮球投篮、网球发球或足球传球,以便进行详细的统计分析。这些数据有助于 完善技术,并根据 球员的运动模式

智能监控

安防系统的发展已经超越了简单的运动检测。先进的 安防监控 利用动作识别来识别可疑行为,如打斗、闲逛或入店行窃,而忽略良性动作。 而忽略良性动作。这样可以减少误报,提高安保人员的工作效率。

区分相关概念

将 "动作识别 "与计算机视觉领域的类似术语区分开来非常重要,这样才能为工作选择正确的工具。 合适的工具。

  • 动作识别与视频理解 视频理解 动作识别侧重于识别特定的物理活动(如 "开门")、 视频理解则是一个更广泛的领域,旨在理解视频中的整个上下文、叙事和因果关系(如 "这个人正在开门")。 视频理解是一个更广泛的领域,旨在理解视频中的整个上下文、叙事和因果关系(例如,"这个人正在开门让狗出去")。
  • 动作识别与物体跟踪 物体跟踪 物体跟踪关注的是在各帧中保持物体或人的身份。动作识别 分析被跟踪对象的行为。通常情况下,跟踪是识别多人场景中动作的前提步骤。 在多人场景中识别动作的前提步骤。
  • 动作识别 vs. 动作估算 姿势估计 姿势估计会输出身体关节的原始坐标数据。动作识别将这些数据(或视觉 特征)作为输入,输出语义标签,如 "骑自行车 "或 "跳跃"。

挑战和未来方向

部署这些系统面临着各种挑战,包括需要大量标注的 训练数据以及处理视频的计算成本。 处理视频的计算成本。基准数据集,如Kinetics-400UCF101是训练和评估模型的标准数据集。

随着硬件的改进,人们开始转向边缘人工智能、 使模型可以直接在摄像头或移动设备上运行。这使得 实时推理,延迟更低,隐私性更好 由于无需将视频数据发送到云端,因此能以更低的延迟和更好的隐私性进行实时推理。未来的发展,包括即将推出的 YOLO26 的目标是进一步优化底层检测和 姿势估计的速度和准确性。 未来的发展,包括即将推出的 YOLO26,旨在进一步优化支持这些复杂识别任务的底层检测和姿势估计 引擎的速度和准确性。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入