深圳Yolo 视觉
深圳
立即加入
词汇表

行动认可

探索行为识别如何识别视频中的行为。学习使用Ultralytics YOLO26进行姿势估计,并为HAR任务构建智能AI系统。

行为识别,通常也称为人体行为识别(HAR),是计算机视觉(CV)的一个动态子领域,旨在识别和分类视频数据中主体执行的特定行为或动作。传统目标检测回答“图像中有什么?”的问题,而行为识别则解决更复杂的问题:“随着时间推移发生了什么?”。通过分析帧序列而非静态图像,机器学习(ML)模型可以区分“行走”、“骑行”、“跌倒”或“握手”等复杂活动,使其成为构建理解人类意图和上下文的智能系统的关键组成部分。

核心概念与技术

动作识别要求模型同时处理空间信息(物体或人物的外观)和时间信息(它们随时间如何移动)。为此,现代人工智能 (AI)系统通常采用超越标准卷积神经网络 (CNN)的专用架构。

  • 姿势估计: 一种强大的技术,模型track人体上的特定关键点,例如肘部、膝盖和肩膀。这些关键点随时间变化的几何变化为classify动作提供了强烈的信号,独立于背景杂波。
  • 时间建模:算法利用循环神经网络(RNN)或长短期记忆(LSTM)网络等结构来记忆过去的帧并预测未来的动作。最近,视频Transformer因其处理视频流中长距离依赖关系的能力而受到欢迎。
  • 双流网络:这种方法并行处理空间特征(RGB帧)和时间特征(通常使用光流),融合数据以进行最终classify。

实际应用

自动解释人类运动的能力在各个行业中具有变革性潜力,可提高安全性、效率和用户体验。

  • 医疗AI: 动作识别对于患者监测系统至关重要。例如,它可以在养老院实现自动跌倒detect,在患者跌倒时立即提醒工作人员。它还用于远程物理康复,AI教练分析患者的运动姿势,以确保他们正确安全地进行动作。
  • 智能监控与安全:先进的安全系统超越了简单的运动检测,利用行为识别来识别打架、商店行窃或未经授权进入等可疑行为,同时忽略良性活动。这减少了误报,并改进了实时安全监控

使用Ultralytics实现行为分析

常见的工作流程包括首先检测人物及其骨骼姿势,然后分析这些关节的运动。Ultralytics YOLO26模型为初始姿势估计步骤提供了最先进的速度和准确率,这是许多行为识别流程的基础。

以下示例演示了如何使用Python从视频帧中提取骨骼关键点:

from ultralytics import YOLO

# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    # Access the keypoints (x, y, visibility)
    if result.keypoints is not None:
        print(f"Detected keypoints shape: {result.keypoints.data.shape}")

区分相关术语

区分行为识别与类似的计算机视觉任务很重要,以确保应用正确的方法。

  • 行为识别与 目标跟踪: 目标跟踪侧重于在对象或人物跨帧移动时保持其身份(例如,“人物 A 在坐标 X 处”)。行为识别解释被跟踪主体的 行为(例如,“人物 A 正在跑步”)。
  • 行为识别与 视频理解: 行为识别识别特定的物理动作,而视频理解是一个更广泛的概念,涉及理解视频场景中的整个叙事、上下文和因果关系。

挑战与未来趋势

开发鲁棒的行为识别模型面临挑战,特别是需要大型标注视频数据集,例如Kinetics-400或UCF101。标注视频数据比标注静态图像耗时得多。为了解决这个问题,像Ultralytics Platform这样的工具可帮助简化标注和训练工作流程。

此外,计算效率至关重要。实时处理高分辨率视频需要大量的硬件资源。行业正日益转向边缘AI,优化模型以直接在相机和移动设备上运行,以减少延迟和带宽使用。未来的进步旨在提高模型泛化能力,使系统即使在未明确训练过的视角下也能识别行为。

让我们一起共建AI的未来!

开启您的机器学习未来之旅