敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

平均精度均值 (mAP)

了解平均精度均值 (mAP) 在评估自动驾驶和医疗保健等 AI 应用中的目标检测模型时的重要性。

平均精度均值 (mAP) 是 计算机视觉中广泛使用的关键评估指标,尤其是在目标检测任务中。它提供了一个综合评分,通过测量模型在所有对象类别中预测的准确性来总结模型的性能。mAP 评分考虑了分类的正确性(对象是否与模型所说的相符?)以及定位的质量(预测的边界框与实际对象的位置匹配程度如何?)。由于它提供了平衡的评估,因此 mAP 已成为比较不同目标检测模型(如 Ultralytics YOLO)性能的标准指标。

mAP 的工作原理

为了理解mAP,首先掌握其核心组成部分会很有帮助:精确率(Precision)、召回率(Recall)和交并比(Intersection over Union,IoU)。

  • 精确率: 衡量模型预测的准确程度。它回答了这个问题:“在模型检测到的所有对象中,有多少是正确的?”
  • 召回率: 衡量模型查找所有实际对象的能力。它回答了这个问题:“在图像中存在的所有真实对象中,模型成功检测到的比例是多少?”
  • 交并比(IoU) 一种量化预测边界框与真实值(手动标记)边界框重叠程度的指标。如果 IoU 高于某个阈值(例如 0.5),则通常认为检测为真阳性。

mAP 计算综合了这些概念。对于每个对象类别,通过在各种 置信度分数 阈值下绘制精确率与召回率,生成 精确率-召回率曲线。该类别的平均精确率 (AP) 是此曲线下的面积,提供了一个代表模型在该特定类别上的性能的单一数字。最后,通过取所有对象类别的 AP 分数的平均值来计算 mAP。一些评估方案,如流行的 COCO 数据集 的评估方案,通过平均多个 IoU 阈值上的 mAP 来进一步提供更强大的评估。

区分 mAP 与其他指标

虽然与其他的评估指标相关,但 mAP 有其独特的用途。

  • 准确率准确率衡量的是正确预测与预测总数的比率。它通常用于分类任务,不适用于目标检测,在目标检测中,预测必须被正确分类和定位。
  • F1-Score: F1-score 是精确率和召回率的调和平均值。虽然有用,但它通常是在单个置信度阈值下计算的。相比之下,mAP 通过平均所有阈值上的性能来提供更全面的评估。
  • 置信度: 这不是针对整个模型的评估指标,而是分配给每个单独预测的分数,表明模型对该检测的确定程度。mAP计算使用这些置信度分数来创建精确率-召回率曲线。

工具和基准

标准化的基准数据集对于推进目标检测领域至关重要。PASCAL VOC 和COCO等数据集使用 mAP 作为其主要指标,用于对公共排行榜上的提交内容进行排名。这使得研究人员和从业人员能够客观地比较不同的模型,例如YOLOv8YOLO11

诸如 Ultralytics HUB 这样的平台突出显示 mAP,以帮助用户在模型训练验证期间跟踪性能。为这些模型提供支持的底层深度学习框架(如 PyTorchTensorFlow)提供了构建和训练模型的必要工具,这些模型最终使用 mAP 进行评估。

实际应用

mAP 指标是开发可靠的 AI 系统的基础。

  1. 自动驾驶汽车自动驾驶汽车人工智能中,感知模型必须准确检测各种物体,如汽车、行人、自行车和交通标志。在像Argoverse这样具有挑战性的数据集上获得高 mAP 分数表明该模型在所有关键类别中都具有鲁棒性和可靠性,这对于确保安全至关重要。该领域的领先公司,如Waymo,严重依赖使用 mAP 等指标进行的严格评估。
  2. 医学图像分析 当训练模型以使用脑肿瘤数据集等数据集检测扫描中的肿瘤或病变等异常时,mAP 用于评估其整体诊断准确性。高 mAP 确保模型不仅擅长检测最常见的异常类型,而且还能有效识别罕见但同样重要的疾病。这种全面的评估是在考虑将模型部署在医疗保健环境中之前的关键步骤。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板