目标检测中的平均精度均值 (mAP)
了解目标检测中的平均精度均值 (mAP)。学习其含义、计算方法,以及为什么 mAP 对于评估模型性能至关重要。

人工智能的应用正迅速增长,并被集成到从自动驾驶汽车到能够识别货架上产品的零售系统等各种创新中。这些技术依赖于 计算机视觉,这是人工智能 (AI) 的一个分支,使机器能够分析视觉数据。
用于衡量计算机视觉系统和算法准确性的关键评估指标是平均精度均值 (mAP)。mAP 指标表明了视觉 AI 模型的预测结果与现实世界结果的匹配程度。
目标检测是一项常见的计算机视觉任务,模型可以在图像中识别多个对象并绘制边界框 (bounding boxes)。mAP 是评估目标检测模型性能的标准指标,并被广泛用于衡量 Ultralytics YOLO11 等深度学习模型的基准。
在本文中,我们将了解如何计算平均精度均值,以及为什么它对于训练或评估目标检测模型的每个人来说都至关重要。让我们开始吧!
Link to this section什么是平均精度均值 (mAP)?#
平均精度均值是一个分数,它展示了深度学习模型在处理与视觉信息检索相关的任务时的准确程度,例如检测和识别图像中的不同对象。例如,考虑一个 目标检测 模型分析一张包含狗、猫和汽车的照片。一个可靠的模型可以通过识别每个对象并在其周围绘制边界框和标签来执行目标检测,从而突出显示它在哪里以及它是什么。
mAP 指示了模型在许多图像和不同类型的对象中执行此任务的效果如何。它检查模型是否准确识别了每个对象及其在图像中的位置。该分数的范围从 0 到 1,其中 1 表示模型完美地找到了所有内容,而 0 表示它未能检测到任何对象。
Link to this section平均精度均值 (mAP) 中的关键概念#
在我们探索机器学习中平均精度均值背后的概念之前,让我们先更好地理解两个基本术语:真值 (ground truth) 和预测 (predictions)。
真值指的是准确的参考数据,其中图像中的对象及其位置通过一种称为标注 (annotation) 的过程由人工仔细标记。与此同时,预测是 AI 模型在分析图像后给出的结果。通过将 AI 模型的预测与真值进行比较,我们可以衡量模型距离获得正确结果有多近。

图 1. 模型预测与真值边界框。图片由作者提供。
Link to this section混淆矩阵 (Confusion matrix)#
一个 混淆矩阵 通常用于了解目标检测模型的精确度。它是一个表格,显示了模型的预测如何与实际正确答案 (真值) 匹配。从该表中,我们可以得到四个关键组件或结果的细分:真阳性 (true positives)、假阳性 (false positives)、假阴性 (false negatives) 和真阴性 (true negatives)。
以下是这些组件在混淆矩阵中的含义:
- 真阳性 (TP): 模型正确检测到了对象及其位置。
- 假阳性 (FP): 模型进行了检测,但它是错误的。
- 假阴性 (FN): 实际存在于图像中但模型未能检测到的对象。
- 真阴性 (TN): 当模型正确识别出对象不存在时,就会发生真阴性。
真阴性在目标检测中并不常用,因为我们通常忽略图像中的许多空白区域。然而,它在其他计算机视觉任务中至关重要,例如 图像分类,模型会在其中为图像分配标签。例如,如果任务是检测图像是否包含猫,而当图像不包含猫时模型正确识别出“没有猫”,那就是一个真阴性。

图 2. 混淆矩阵中的分类结果。图片由作者提供。
Link to this section交并比 (Intersection over Union, IoU)#
评估目标检测模型的另一个重要指标是 交并比 (IoU)。对于此类视觉 AI 模型,仅仅检测到图像中是否存在对象是不够的;它还需要定位对象在图像中的位置以绘制边界框。
IoU 指标衡量模型的预测框与实际、正确的框 (真值) 的匹配程度。分数在 0 到 1 之间,其中 1 表示完美匹配,0 表示完全没有重叠。
例如,较高的 IoU(如 0.80 或 0.85)意味着预测框与真值框非常匹配,表示定位准确。较低的 IoU(如 0.30 或 0.25)意味着模型没有准确地定位该对象。
为了确定检测是否成功,我们使用不同的阈值。常见的 IoU 阈值是 0.5,这意味着预测框必须与真值框至少有 50% 的重叠才会被算作真阳性。低于此阈值的任何重叠都被视为假阳性。

图 3. 理解交并比。图片由作者提供。
Link to this section精度 (Precision) 和召回率 (Recall)#
到目前为止,我们已经探索了一些用于了解目标检测模型性能的基本评估指标。在此基础上,两个最重要的指标是 精度和召回率。它们清楚地展示了模型检测的准确性。让我们看看它们是什么。
精度值告诉我们模型预测中有多少是真正正确的。它回答了这样一个问题:在模型声称检测到的所有对象中,有多少是真实存在的?
另一方面,召回率衡量模型查找图像中所有实际存在对象的能力。它回答了这样一个问题:在所有真实存在的对象中,模型正确检测到了多少?
总而言之,精度和召回率让我们更清晰地了解模型的表现。例如,如果一个模型预测图像中有 10 辆汽车,而其中 9 辆确实是汽车,那么它的精度就是 90%(正向预测)。
这两个评估指标通常涉及一种权衡:模型可以通过只做出其完全有信心的预测来实现高精度值,但这可能会导致它错过许多对象,从而降低召回率水平。同时,它也可以通过在各处预测边界框来达到极高的召回率,但这会降低精度。

图 4. 精度和召回率。图片由作者提供。
Link to this section平均精度 (Average precision, AP)#
虽然精度和召回率有助于我们了解模型在单个预测上的表现,但平均精度 (AP) 可以提供更广泛的视角。它展示了模型在尝试检测更多对象时精度如何变化,并将其实际性能总结为一个数字。
为了计算平均精度得分,我们可以首先为每种类型的对象创建一个组合的图形化指标,称为精度-召回率曲线(或 PR 曲线)。该曲线显示了随着模型做出更多预测时会发生什么。
考虑一个模型开始时只检测最简单或最明显对象的场景。在这个阶段,精度很高,因为大多数预测都是正确的,但召回率很低,因为许多对象仍然被遗漏了。随着模型尝试检测更多的对象,包括更难或更罕见的对象,它通常会引入更多的错误。这会导致精度下降,而召回率上升。
平均精度是曲线下的面积(PR 曲线的 AUC)。面积越大,意味着模型在检测更多对象时保持预测准确性的能力越好。AP 是针对每个类标签分别计算的。
例如,在一个能够检测汽车、自行车和行人的模型中,我们可以分别为这三个类别计算 AP 值。这有助于我们了解模型擅长检测哪些对象,以及在哪些方面可能还需要改进。

图 5. 五种不同类别的 PR 曲线。(来源)
Link to this section平均精度均值 (Mean average precision, mAP)#
在计算完每个对象类别的平均精度后,我们仍然需要一个反映模型在所有类别中整体表现的单一分数。这可以通过使用 平均精度均值 公式来实现。它对每个类别的 AP 分数进行平均。
例如,假设像 YOLO11 这样的计算机视觉模型对汽车的 AP 为 0.827,摩托车为 0.679,卡车为 0.355,公共汽车为 0.863,自行车为 0.982。使用 mAP 公式,我们可以将这些数字相加并除以类别总数,如下所示:
mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743
0.743 的 mAP 分数提供了一个直接的解决方案,用于判断模型在所有对象类别中的表现。接近 1 的值意味着模型在大多数类别中都很准确,而较低的值则表明它在某些方面表现吃力。
Link to this sectionAP 和 mAP 在计算机视觉中的意义#
既然我们对 AP 和 mAP 的计算方式及其组成部分有了更好的理解,以下是它们在计算机视觉中意义的概述:
-
特定类别的低 AP: 单个类别的低 AP 通常意味着模型在该特定对象类别上表现吃力。这可能是由于训练数据不足或图像中的视觉挑战(如遮挡)所致。
-
定位错误: 在较低的 IoU 阈值(如 mAP@0.50)下较高的 mAP 值,结合在较高 IoU 阈值(如 mAP@0.75)下的显著下降,表明模型可以检测到对象,但在精确地定位它们方面存在困难。
-
过拟合 (Overfitting): 在训练 数据集 上具有较高的 mAP 值,但在验证数据集上具有较低的 mAP 值,这是过拟合的迹象,使模型对于新图像来说不可靠。
Link to this section平均精度均值的实际应用#
接下来,让我们探讨像 mAP 这样的关键指标如何在构建实际计算机视觉用例时提供帮助。
Link to this section自动驾驶汽车:为什么较高的 mAP 值意味着更安全的道路#
在 自动驾驶汽车 领域,目标检测对于识别行人、交通标志、骑自行车的人和车道标记至关重要。例如,如果一个孩子突然跑过马路,汽车只有几秒钟的时间来检测该对象(孩子)、定位它的位置、追踪它的移动并采取必要行动(踩刹车)。
像 YOLO11 这样的模型专为此类高风险场景中的实时目标检测而设计。在这些情况下,mAP 成为衡量安全性的关键标准。
高 mAP 分数确保系统能快速检测到孩子,精确定位他们,并以最小的延迟触发制动。低 mAP 可能意味着检测漏报或危险的误分类,例如将孩子误认为是另一个小物体。

图 6. YOLO11 用于检测道路上行人的示例。(来源)
Link to this section使用 mAP 进行准确的产品检测#
同样,在 零售 领域,目标检测模型可用于自动化库存监控和结账流程等任务。当客户在自助结账处扫描产品时,检测错误可能会导致挫败感。
高 mAP 分数确保模型能准确区分相似产品并绘制精确的边界框,即使物品被紧密包装在一起时也是如此。低 mAP 分数可能导致混淆。例如,如果模型将橙汁瓶误认为是视觉上相似的苹果汁瓶,则可能导致错误的计费和不准确的库存报告。
集成有像 YOLO11 这样模型的零售系统可以实时检测产品、根据库存进行核对,并立即更新后端系统。在快节奏的零售环境中,mAP 在保持操作准确和可靠方面起着至关重要的作用。
Link to this section在医疗保健中通过高 mAP 提高诊断准确性#
提高医疗保健的诊断准确性始于 医学影像 中的精确检测。像 YOLO11 这样的模型可以帮助放射科医生从这些医学扫描中发现肿瘤、骨折或其他异常。在这里,平均精度均值是评估模型临床可靠性的重要指标。
高 mAP 表明该模型既实现了高召回率(识别出大多数实际问题),又实现了高精度(避免误报),这在临床决策中至关重要。此外,医疗保健中的 IoU 阈值通常设置得非常高(0.85 或 0.90),以确保极其准确的检测。
然而,较低的 mAP 分数可能会引起担忧。假设模型漏掉了一个肿瘤;这可能会延误诊断或导致错误的治疗。
Link to this section使用 mAP 的优缺点#
以下是使用平均精度均值来评估目标检测模型的主要优势:
-
标准化指标: mAP 是评估目标检测模型的行业标准。mAP 值可以在不同模型之间进行公平且一致的比较。
-
反映现实世界性能: 高 mAP 表明模型擅长检测各种对象类别,并在复杂的现实场景中保持强大的性能。
-
类级诊断: mAP 分数会分别评估每个类别的检测性能。这使得识别表现不佳的类别(如自行车或路标)并相应地微调模型变得更容易。
虽然使用 mAP 指标有很多好处,但也需要考虑一些局限性。以下是需要考虑的几个因素:
-
对非技术利益相关者来说很困难: 商业或临床团队可能会觉得 mAP 值比较抽象,不像其他直观且易于理解的指标。
-
不能反映实时约束: mAP 不会考虑推理速度或延迟,这些对于在对时间敏感的应用程序中部署至关重要。
Link to this section关键要点#
我们已经看到,平均精度均值不仅是一个技术分数,更是模型潜在现实表现的反映。无论是自动驾驶汽车系统还是零售结账,高 mAP 分数都是模型性能和实际就绪程度的可靠指标。
虽然 mAP 是一个重要且有影响力的指标,但它应被视为全方位评估策略的一部分。对于医疗保健和自动驾驶等关键应用,仅依赖 mAP 是不够的。
还必须考虑推理速度(模型做出预测的速度)、模型大小(影响在边缘设备上的部署)和定性错误分析(理解模型所犯错误的类型)等额外因素,以确保系统安全、高效且真正适用于其预期目的。
加入我们日益壮大的 社区 和 GitHub 存储库 以了解更多关于计算机视觉的信息。探索我们的解决方案页面,了解 农业中的计算机视觉 和 物流中的 AI 的应用。查看我们的 许可选项 以立即开始构建您自己的计算机视觉模型!






