敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

多目标跟踪 (MOT)

探索多目标跟踪(MOT):利用 YOLO11、卡尔曼滤波器、外观匹配和现代数据关联技术跟踪和重新识别视频帧中的目标。

多物体跟踪(MOT)是计算机视觉(CV)中的一项基本任务,涉及检测视频中的多个物体,并在连续帧中保持它们的唯一性。与在单幅图像中对物体进行定位和分类的物体检测不同,多物体跟踪增加了一个时间维度。它不仅能回答 "帧中有哪些物体?",还能回答 "每个特定物体要去哪里?"。通过为每个物体分配一个持久的 ID,MOT 可以分析物体随时间变化的运动、行为和交互,这对理解动态场景至关重要。

多目标跟踪的工作原理

MOT 流程通常采用逐个检测跟踪的模式。首先,使用物体检测器(如YOLO11)来识别视频每帧中的所有物体。然后,为每个检测到的物体分配一个唯一的跟踪 ID。在随后的帧中,跟踪算法会预测这些物体的新位置,并将它们与新检测到的物体关联起来。这种关联是一个关键步骤,依赖于多种技术:

  • 运动预测卡尔曼滤波器 (KF)等算法会根据物体过去的运动轨迹来估计其未来位置。这有助于缩小在下一帧中搜索物体的范围。
  • 外观匹配:为了在物体被遮挡或改变外观后重新识别物体,系统通常会提取独特的特征。这些特征可以是简单的颜色直方图,也可以是复杂的基于深度学习的嵌入
  • 数据关联:该组件将现有的物体轨迹与新的检测结果相匹配。先进的算法(如匈牙利算法)或现代跟踪器(如ByteTrackBoT-SORT)采用的方法都用于处理这些分配,即使在拥挤的场景中也能确保跟踪的连续性。

Ultralytics 可以无缝集成这些跟踪算法,使用户能够利用高性能探测器轻松实现稳健的多目标跟踪。

多目标跟踪与目标检测

虽然 MOT 和对象检测密切相关,但两者的目的却截然不同。物体检测是一种静态的、逐帧的分析,会产生一组边界框和类标签。相比之下,MOT 是一个动态过程,它将这些检测随时间推移联系起来,为每个对象创建一个连续的 "故事"。您可以将物体检测看作是拍摄一系列快照,而多物体追踪则是将这些快照拼接在一起,形成一部电影,揭示物体如何移动和互动的情节。

实际应用

MOT 是一项变革性技术,在各行各业都有广泛的实际用途。

  • 自动驾驶汽车:对于自动驾驶汽车而言,MOT 对安全至关重要。它使车辆能够跟踪其他汽车、行人和骑车人的轨迹,预测他们的动向,从而做出明智的决策,避免碰撞。与单帧检测相比,这种连续跟踪能提供更丰富的环境信息。
  • 零售和公共空间分析:在零售业,MOT 通过跟踪人流模式和停留时间来分析顾客行为。这有助于优化商店布局和有效管理排队。在公共场所,它可用于人群管理和安全,例如通过设置安全警报系统,当追踪到有人进入禁区时就会触发警报
  • 体育分析:教练和分析师使用 MOT 监测球员的移动、分析阵型以及评估速度和距离等表现指标。这可以与姿势估计相结合,对运动技术和比赛策略进行更详细的分析。
  • 工业自动化:在工厂车间,MOT 可用于跟踪传送带上的零件,以进行物体计数和质量控制,确保每件物品都得到正确处理。这是制造业人工智能的关键组成部分。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板