深圳Yolo 视觉
深圳
立即加入
词汇表

行动认可

探索动作识别如何在视频中识别行为。学习使用Ultralytics 进行姿势估计 并构建用于健康活动识别(HAR)任务的智能AI系统。

动作识别(亦称人类活动识别HAR)是计算机视觉(CV)领域中一个动态分支,致力于识别和分类视频数据中主体执行的特定行为或动作。传统物体检测回答的是"图像中存在什么"的问题,而动作识别则应对更为复杂的"随时间推移发生了什么"的挑战。 通过分析连续帧序列而非静态图像, 机器学习(ML)模型能够区分"行走"、"骑行"、"跌倒"或"握手"等复杂活动, 使其成为构建理解人类意图与情境的智能系统的重要组成部分。

核心概念与技术

识别动作需要一种模型来处理空间信息(物体或人的外观)和时间信息(它们随时间的移动方式)。为此,现代人工智能(AI)系统通常采用超越标准卷积神经网络(CNN)的专用架构。

  • 姿势估计 一种强大的技术,模型通过追踪人体特定关键点(如肘部、膝盖和肩膀)来实现。这些关键点随时间发生的几何变化,为动作分类提供了强有力的信号,且不受背景干扰的影响。
  • 时间建模:算法利用如 循环神经网络(RNNs)或 长短期记忆网络(LSTM)等结构来记忆过去帧并预测未来动作。近年来, 视频变换器因其处理视频流中长程依赖关系的能力而广受欢迎。
  • 双流网络:该方法通过并行流处理空间特征(RGB帧)和时间特征(通常采用光流),融合数据以实现最终分类。

实际应用

自动解读人体动作的能力在各行各业都具有变革潜力, 能够提升安全性、效率及用户体验。

  • 医疗领域的人工智能动作识别对患者监护系统至关重要。例如,它能实现养老院的自动跌倒检测,当患者倒地时立即向工作人员发出警报。该技术还应用于远程物理康复领域,人工智能教练通过分析患者的运动姿势,确保其动作正确且安全。
  • 智能监控与安防:超越简单的运动检测,先进的安防系统通过动作识别技术,能够精准识别斗殴、盗窃或擅自闯入等可疑行为,同时忽略无害活动。这有效降低了误报率,显著提升了实时安防监控的精准度。

使用Ultralytics实施行为分析

常见的工作流程包括:姿势估计 检测人物及其骨骼姿势估计 ,随后分析这些关节的运动轨迹。Ultralytics 模型在初始姿势估计 步骤中实现了顶尖的速度与精度,该步骤是众多动作识别管道的基础。

以下示例演示了如何使用Python 从视频帧中提取骨架关键点:

from ultralytics import YOLO

# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    # Access the keypoints (x, y, visibility)
    if result.keypoints is not None:
        print(f"Detected keypoints shape: {result.keypoints.data.shape}")

区分相关术语

区分动作识别与其他计算机视觉任务至关重要,以确保采用正确的方法。

  • 动作识别与 目标跟踪 目标跟踪侧重于在帧与帧之间移动时保持特定目标或人物的身份(例如 "人物A位于坐标X处")。动作识别则解读被跟踪对象的行为(例如 "人物A正在奔跑")。
  • 动作识别与视频理解 动作识别旨在识别特定的物理动作,而视频理解则是更广泛的概念,涉及对视频场景中完整叙事、上下文及因果关系的理解。

挑战与未来趋势

开发稳健的动作识别模型面临诸多挑战,尤其需要像Kinetics-400或UCF101这样的大型标注视频数据集。标注视频数据比标注静态图像耗时得多。为解决这一问题,Ultralytics 等工具可帮助简化标注和训练工作流程。

此外,计算效率至关重要。实时处理高清视频需要大量硬件资源。行业正日益转向边缘人工智能,通过优化模型使其直接在摄像头和移动设备上运行,从而降低延迟并减少带宽消耗。未来的发展将致力于提升模型的泛化能力,使系统能够识别即使在未明确训练过的视角下执行的动作。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入