探索动作识别(人类活动识别):视频、姿势估计 和深度学习如何为医疗保健、安全和体育detect 人类动作。
动作识别通常被称为人类活动识别 (HAR),是计算机视觉 (CV) 的一个专门子集。 计算机视觉 (CV)的一个专门子集,其重点是对视频数据中的特定动作或行为进行识别和分类。 对视频数据中的特定动作或行为进行识别和分类。与标准的 图像识别通过分析静态帧来检测物体 不同,动作detect 结合了时间维度来理解动态事件。通过处理 图像序列、 人工智能(AI)系统可以 区分行走、奔跑、挥手或跌倒等动作。这种能力对于创建 这种能力对于创建能够解释真实世界环境中人类行为的系统至关重要,它弥补了看到像素和理解意图之间的差距。 理解意图之间的差距。
要准确识别动作、 深度学习 (DL)模型必须提取两类 特征:空间特征和时间特征。空间特征描述场景的视觉外观,例如是否存在人或物体。 通常通过 卷积神经网络(CNN)提取。时间特征描述这些空间元素如何随时间变化。
现代方法通常使用的管道包括
下面的Python 示例演示了如何使用 ultralytics 从视频中提取姿势估计 关键点的姿势估计 库
它是许多动作识别系统的基础数据层。
from ultralytics import YOLO
# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")
# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)
for result in results:
# Keypoints can be analyzed over time to determine actions
keypoints = result.keypoints.xyn # Normalized x, y coordinates
print(keypoints)
自动解读人体运动的能力已被各行各业广泛采用。 全球 人类活动识别市场 的全球市场将继续扩大,因为各行各业都在寻求将实际工作流程数字化。
在医疗保健领域的人工智能中,动作识别对自动监控病人至关重要。 识别对于自动监控病人至关重要。可以对系统进行训练,以detect 医院或 辅助生活设施中的跌倒,并立即向工作人员发出警报。此外,计算机视觉还能 远程物理康复 此外,计算机视觉还能通过实时分析病人的运动形式,确保他们正确地完成动作,从而帮助康复并防止受伤,从而促进远程物理康复。
教练和转播人员利用 人工智能在体育运动中的应用 分解运动员的表现。动作识别算法可自动标记比赛录像中的事件,如篮球投篮、网球发球或足球传球。 如篮球投篮、网球发球或足球传球,以便进行详细的统计分析。这些数据有助于 完善技术,并根据 球员的运动模式。
安防系统的发展已经超越了简单的运动检测。先进的 安防监控 利用动作识别来识别可疑行为,如打斗、闲逛或入店行窃,而忽略良性动作。 而忽略良性动作。这样可以减少误报,提高安保人员的工作效率。
将 "动作识别 "与计算机视觉领域的类似术语区分开来非常重要,这样才能为工作选择正确的工具。 合适的工具。
部署这些系统面临着各种挑战,包括需要大量标注的 训练数据以及处理视频的计算成本。 处理视频的计算成本。基准数据集,如Kinetics-400和 UCF101是训练和评估模型的标准数据集。
随着硬件的改进,人们开始转向边缘人工智能、 使模型可以直接在摄像头或移动设备上运行。这使得 实时推理,延迟更低,隐私性更好 由于无需将视频数据发送到云端,因此能以更低的延迟和更好的隐私性进行实时推理。未来的发展,包括即将推出的 YOLO26 的目标是进一步优化底层检测和 姿势估计的速度和准确性。 未来的发展,包括即将推出的 YOLO26,旨在进一步优化支持这些复杂识别任务的底层检测和姿势估计 引擎的速度和准确性。