深圳Yolo 视觉
深圳
立即加入
词汇表

多目标跟踪 (MOT)

探索多目标跟踪(MOT):利用YOLO11、卡尔曼滤波器、外观匹配和现代数据关联技术track 和重新识别视频帧中的目标。

多目标跟踪(MOT)是计算机视觉(CV)领域的一项复杂能力。 计算机视觉(CV)领域 , 它使系统能够在连续视频帧中detect、识别并追踪多个独立实体。与 标准 物体检测将每个图像帧视为独立事件,MOT为 人工智能(AI)。通过为每个检测实例(如车流中的特定车辆或 运动场上的球员)分配持久标识号(ID),MOT使算法能够在物体移动、交互甚至 暂时被障碍物遮挡时保持其身份连续性。这种连续性正是现代 视频理解 与 行为分析的基础。

跟踪系统的原理

大多数当代MOT系统,包括那些采用尖端技术驱动的系统 YOLO26,均采用"检测驱动追踪"范式。该工作流通过检测与关联的循环机制,确保了高 准确性 并 最大限度减少目标ID切换。

  1. 检测:在每个帧中,采用YOLO26或上一代 YOLO11 扫描场景定位目标, 生成 边界框 及类别 概率。
  2. 运动预测:为预测物体下一步移动方向,算法利用数学估计器如 卡尔曼滤波器。这会生成 基于速度和轨迹的状态估计 ,从而缩小后续帧的搜索范围。
  3. 数据关联:系统将新检测结果与现有轨迹进行匹配。优化方法如 匈牙利算法 通过最小化匹配"成本"来解决 该分配问题,通常采用 交并比(IoU) 作为空间重叠的度量标准。
  4. 重新识别(ReID):当出现视觉障碍(即遮挡)时,高级追踪器会利用视觉 嵌入向量 识别物体 当物体再次出现时,保持其原始ID而非将其视为新实体。

MOT与相关概念

理解MOT与类似机器学习(ML)技术之间的区别 机器学习(ML) 术语的区别 对选择合适工具至关重要。

  • 物体检测:检测回答静态图像中的"是什么"和"在哪里"若某人出现在帧1和帧2中,检测器会识别为两个独立个体。运动目标跟踪(MOT)则将它们关联起来,理解这是同一个人在时间中移动。
  • 与单目标跟踪(SOT)相比:SOT专注于追踪单一特定目标(通常由用户手动初始化),并忽略其他干扰因素持续追踪。而MOT更为复杂,需自主detect track 场景中track 且不断变化的进出物体,这要求具备强大的 内存管理 机制。

实际应用

将视频流转化为结构化数据的能力推动着各行业的创新,从而实现 预测建模 和 自动化决策。

用Python实现跟踪

"(《世界人权宣言》) ultralytics 该软件包为MOT提供无缝接口,整合了诸如...等强大算法。 BoT-SORT字节跟踪以下示例演示了如何加载模型并在视频流中track 。

from ultralytics import YOLO

# Load a pre-trained YOLO model (YOLO11n is used here, YOLO26n is also supported)
model = YOLO("yolo11n.pt")

# Perform tracking on a video source
# 'persist=True' ensures tracks are maintained between frames
results = model.track(source="https://youtu.be/LNwODJXcvt4", persist=True, tracker="bytetrack.yaml")

# Visualize the first frame's results with IDs drawn
results[0].show()

此简易工作流自动处理检测、关联及ID分配,使开发者能够专注于更高层次的逻辑,例如 区域计数 或行为 触发机制。有关配置的更多细节,请参阅 跟踪模式文档

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入