术语表

视频了解

探索视频理解(Video Understanding),这是一种先进的人工智能,可解释视频中的动作和事件。了解它如何工作并为自动驾驶和智能安防应用提供动力。

视频理解是人工智能(AI)计算机视觉(CV)的一个高级领域,能让机器自动解释和分析视频内容。与处理静态图像不同,视频理解涉及分析帧序列,不仅要识别对象,还要识别对象的动作、交互以及事件的时间背景。其目的是实现对视频数据的整体理解,就像人类感知和解读动态场景一样。这种能力是从自动驾驶汽车到自动监控和内容管理等广泛应用的基础。

视频理解的工作原理

视频理解系统通常集成多种人工智能技术来处理和解释视觉和时间信息。这一过程始于在单个视频帧上执行的基础计算机视觉任务。这些任务通常包括

  • 物体检测识别和定位每个帧内的物体。Ultralytics YOLO等模型对这一初始步骤非常有效。
  • 物体跟踪在一系列画面中跟踪已识别的物体,以了解它们的移动和持续情况。
  • 姿势估计识别人体的姿势和关键点,这对分析人类动作至关重要。
  • 图像分割对画面中的每个像素进行分类,以了解物体的精确形状和边界。

一旦提取了这些空间特征,系统就会使用专为顺序数据设计的模型(如递归神经网络 (RNN),或在现代架构中更为常见的变形器网络)对其进行长期分析。这些模型可以识别物体和场景变化的模式,从而完成更高级别的任务,如动作识别、事件检测和视频摘要。一些先进的架构,如3D 卷积神经网络,可同时学习空间和时间特征。整个过程在一个具有凝聚力的机器学习运营(MLOps)框架内进行管理,以确保高效的训练部署和监控。

视频理解与相关概念

必须将视频理解与其他相关的计算机视觉任务区分开来。

  • 视频理解与物体检测/跟踪: 物体检测可识别单帧画面中的物体,而物体跟踪则是在多帧画面中跟踪这些物体。视频理解使用这些任务的输出结果来解释为什么--随着时间的推移发生的动作、事件和交互。例如,跟踪一个人就是物体跟踪;识别这个人正在开门就是视频理解。
  • 视频理解与图像识别: 图像识别侧重于对单张静态图像中的物体或场景进行分类。视频理解将这一概念扩展到时间维度,通过分析一系列图像来理解动态事件。它不仅要求理解 "什么",还要求理解 "如何 "和 "何时"。
  • 视频理解与文本到视频: 文本到视频"是一项生成性人工智能任务,它根据文本描述创建视频内容。相反,视频理解是一项分析任务,它从现有视频内容中提取意义并生成描述或结构化数据。

实际应用

视频理解为各行各业越来越多的创新解决方案提供了动力。

  1. 智能监控和安全:在安全应用中,视频理解系统可以自动检测异常活动。例如,系统可以监控医院的监控画面,识别病人跌倒的时间,或者分析零售店的客流量,检测盗窃行为。这些系统超越了简单的运动检测,能够理解动作的来龙去脉,从而大大减少误报,加快响应速度。如需了解更多信息,请阅读 "利用 Ultralytics YOLO11 增强智能监控"
  2. 自动驾驶:对于自动驾驶汽车来说,理解道路至关重要。视频理解模型通过分析摄像头的信号来预测行人的意图,解释其他车辆的行为,并识别复杂场景中的交通信号。这种深层次的理解能力对于安全可靠的导航至关重要。这一领域通常依赖于对自主系统动作识别的广泛研究。

其他应用包括在社交媒体平台上通过标记不合适的视频进行内容管理,通过总结比赛集锦进行体育分析,以及在娱乐中创造互动体验。Ultralytics HUB等平台提供了为这些专门任务训练定制模型的工具,同时与TensorRT等工具的集成优化了这些模型实时推理能力。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板