敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

视频理解

探索视频理解,这是一种先进的 AI,可以解释视频中的动作和事件。了解它的工作原理以及它如何为自动驾驶和智能安全应用提供支持。

视频理解是人工智能(AI)计算机视觉(CV)领域的一项先进技术,使机器能够自动解释和分析视频的内容。与处理静态图像不同,视频理解涉及分析帧序列,不仅识别对象,还识别它们的动作、交互以及事件的时间背景。它旨在实现对视频数据的整体理解,就像人类感知和解释动态场景一样。这种能力是各种应用的基础,从自动驾驶汽车到自动监控和内容审核。

视频理解的工作原理

视频理解系统通常整合多种人工智能技术来处理和解释视觉和时间信息。该过程始于对单个视频帧执行的基础计算机视觉任务。这些任务通常包括:

  • 目标检测: 识别和定位每一帧中的对象。像 Ultralytics YOLO 这样的模型对于此初始步骤非常有效。
  • 目标跟踪: 跟踪一系列帧中已识别的对象,以了解它们的移动和持久性。
  • 姿态估计(Pose Estimation):识别人体姿势和关键点,这对于分析人类行为至关重要。
  • 图像分割: 对帧中的每个像素进行分类,以了解物体的精确形状和边界。

一旦提取了这些空间特征,系统就会使用专为序列数据设计的模型(例如 循环神经网络 (RNN),或者在现代架构中更常见的 Transformer 网络)随时间推移分析它们。这些模型识别对象和场景如何变化的模式,从而实现更高级别的任务,例如动作识别、事件检测和视频摘要。一些高级架构,如 3D 卷积神经网络,旨在同时学习空间和时间特征。整个过程在有凝聚力的 机器学习运营 (MLOps) 框架内进行管理,以确保高效的训练部署和监控。

视频理解 vs. 相关概念

区分视频理解与其他相关的计算机视觉任务非常重要。

  • 视频理解 vs. 目标检测/跟踪: 目标检测识别单个帧中的内容,而目标跟踪跟踪多个帧中的这些对象。视频理解使用这些任务的输出来解释原因——随着时间的推移发生的动作、事件和交互。例如,跟踪一个人是目标跟踪;识别该人正在开门是视频理解。
  • 视频理解 vs. 图像识别: 图像识别侧重于对单个静态图像中的对象或场景进行分类。视频理解将此概念扩展到时间维度,分析一系列图像以理解动态事件。它不仅需要理解“什么”,还需要理解“如何”和“何时”。
  • 视频理解 vs. 文本到视频: 文本到视频是一项生成式 AI任务,可从文本描述创建视频内容。相反,视频理解是一项分析任务,可从现有视频内容中提取含义并生成描述或结构化数据。

实际应用

视频理解为各行各业中越来越多的创新解决方案提供支持。

  1. 智能监控和安全: 在安全应用中,视频理解系统可以自动检测异常活动。例如,系统可以监控医院中的监控视频,以识别患者何时跌倒,或分析零售店中的交通流量以检测盗窃行为。这些系统超越了简单的运动检测,通过理解动作的上下文,显着减少了误报并实现了更快的响应。您可以通过阅读使用 Ultralytics YOLO11 增强智能监控来了解更多信息。
  2. 自动驾驶: 对于自动驾驶汽车,了解道路至关重要。视频理解模型分析来自摄像头的馈送,以预测行人的意图、解释其他车辆的行为以及识别复杂场景中的交通信号。这种深层次的理解对于安全可靠的导航至关重要。该领域通常依赖于对自动系统中动作识别的广泛研究。

其他应用包括通过标记不当视频来审核社交媒体平台上的内容,通过总结游戏亮点来进行体育分析,以及在娱乐中创建互动体验。诸如Ultralytics HUB之类的平台提供了训练自定义模型以执行这些专门任务的工具,而与TensorRT之类的工具集成则可以优化它们以进行实时推理

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板