探索多目标跟踪(MOT):利用 YOLO11、卡尔曼滤波器、外观匹配和现代数据关联技术跟踪和重新识别视频帧中的目标。
多物体跟踪(MOT)是计算机视觉(CV)中的一项基本任务,涉及检测视频中的多个物体,并在连续帧中保持它们的唯一性。与在单幅图像中对物体进行定位和分类的物体检测不同,多物体跟踪增加了一个时间维度。它不仅能回答 "帧中有哪些物体?",还能回答 "每个特定物体要去哪里?"。通过为每个物体分配一个持久的 ID,MOT 可以分析物体随时间变化的运动、行为和交互,这对理解动态场景至关重要。
MOT 流程通常采用逐个检测跟踪的模式。首先,使用物体检测器(如YOLO11)来识别视频每帧中的所有物体。然后,为每个检测到的物体分配一个唯一的跟踪 ID。在随后的帧中,跟踪算法会预测这些物体的新位置,并将它们与新检测到的物体关联起来。这种关联是一个关键步骤,依赖于多种技术:
Ultralytics 可以无缝集成这些跟踪算法,使用户能够利用高性能探测器轻松实现稳健的多目标跟踪。
虽然 MOT 和对象检测密切相关,但两者的目的却截然不同。物体检测是一种静态的、逐帧的分析,会产生一组边界框和类标签。相比之下,MOT 是一个动态过程,它将这些检测随时间推移联系起来,为每个对象创建一个连续的 "故事"。您可以将物体检测看作是拍摄一系列快照,而多物体追踪则是将这些快照拼接在一起,形成一部电影,揭示物体如何移动和互动的情节。
MOT 是一项变革性技术,在各行各业都有广泛的实际用途。