深圳Yolo 视觉
深圳
立即加入

物体检测的平均精度mAP)

Abirami Vina

6 分钟阅读

2025年8月28日

了解物体检测中的平均精度mAP)。了解其含义、计算方法以及为什么mAP 是评估模型性能的关键。

人工智能的应用正在迅速增长,并且人工智能正在被整合到各种创新中,从自动驾驶汽车到可以识别货架上产品的零售系统。这些技术依赖于计算机视觉,它是人工智能 (AI) 的一个分支,使机器能够分析视觉数据。 

用于衡量计算机视觉系统和算法准确性的一个关键评估指标是平均精度mAP)。mAP 指标表明视觉人工智能模型的预测与实际结果的匹配程度。

物体检测是一项常见的计算机视觉任务,在这项任务中,模型mAP 识别图像中的多个物体,并围绕这些物体绘制边界框。 Ultralytics YOLO11.

在本文中,我们将了解平均精度均值是如何计算的,以及为什么它对于任何训练或评估目标检测模型的人来说都至关重要。让我们开始吧!

什么是平均精度mAP)?

平均精度均值是一个评分,用于展示深度学习模型在执行与视觉信息检索相关的任务(例如检测和识别图像中的不同对象)时的准确程度。例如,考虑一个目标检测模型,该模型分析一张包含狗、猫和汽车的照片。一个可靠的模型可以通过识别每个对象并在其周围绘制边界框和标签来执行目标检测,从而突出显示对象的位置和内容。

mAP 表示模型在许多图像和不同类型的物体中执行这项任务的情况。它检查模型是否能准确识别每个物体及其在图像中的位置。分数范围从 0 到 1,1 表示模型完美地找到了所有物体,0 表示模型未能detect 任何物体。

平均值精度mAP) 的主要概念

在探讨机器学习中平均精度均值背后的概念之前,让我们先更好地理解两个基本术语:真实值(ground truth)和预测值(predictions)。 

“Ground truth”(真值)指的是准确的参考数据,其中图像中的对象及其位置由人工通过称为标注的过程进行仔细标记。同时,预测是 AI 模型在分析图像后给出的结果。通过将 AI 模型的预测与真值进行比较,我们可以衡量模型的结果与正确结果的接近程度。 

图 1. 模型预测和真实边界框。图片由作者提供。

混淆矩阵

混淆矩阵 通常用于了解目标检测模型的精确度。它是一个表格,显示了模型的预测与实际正确答案(真实值)的匹配程度。从该表中,我们可以获得四个关键组成部分或结果的细分:真阳性、假阳性、假阴性和真阴性。

以下是这些组件在混淆矩阵中代表的含义:

  • 真阳性 (TP): 对象及其位置被模型正确检测到。
  • 假阳性 (FP): 模型做出了检测,但检测结果不正确。
  • 假阴性 (FN):图像中实际存在的物体,但模型未能detect 它。
  • 真阴性 (TN): 当模型正确识别出对象不存在时,就会出现真阴性。

真负片在物体检测中并不常用,因为我们通常会忽略图像中的许多空白区域。然而,在其他计算机视觉任务中,如 图像分类,模型会给图像指定一个标签,因此真负值是必不可少的。例如,如果任务是detect 图像中是否包含一只猫,而当图像中没有猫时,模型能正确识别出 "没有猫",这就是真负值。

图 2. 混淆矩阵中的分类结果。作者图片。

联盟路交叉口IoU)

评估物体检测模型的另一个重要指标是 " 交集大于联合IoU)。对于此类视觉人工智能模型来说,仅仅检测图像中是否存在物体是不够的,还需要确定物体在图像中的位置,以便绘制边界框。 

IoU 指标衡量模型预测的方框与实际正确方框(地面实况)的匹配程度。得分介于 0 和 1 之间,1 表示完全匹配,0 表示完全没有重叠。

例如,较高的IoU (如 0.80 或 0.85)表示预测方框与地面实况方框非常接近,表明定位准确。较低的IoU (如 0.30 或 0.25)表示模型没有准确定位物体。

为了确定检测是否成功,我们使用了不同的阈值。常见的IoU 阈值是 0.5,这意味着预测框必须与地面实况框重叠至少 50%,才能算作真阳性。任何低于该阈值的重叠都被视为假阳性。

图 3. 理解 Intersection over Union(交并比)。作者提供的图像。

精确率和召回率

到目前为止,我们已经探讨了一些用于理解目标检测模型性能的基本评估指标。在此基础上,最重要的两个指标是 精确率(precision)和召回率(recall)。它们可以清晰地反映模型检测的准确性。让我们来看看它们是什么。

精度值告诉我们,模型的预测有多少是真正正确的。它回答了这样一个问题:在模型声称detect的所有物体中,有多少是真正存在的?

召回值则衡量模型找到图像中所有实际物体的程度。它回答的问题是:在所有实际存在的物体中,模型正确detect了多少?

精确率和召回率共同为我们提供了模型性能的更清晰的图景。例如,如果一个模型预测图像中有10辆汽车,其中9辆确实是汽车,那么它的精确率为90%(一个积极的预测)。 

这两个评估指标通常涉及权衡:模型可以通过仅对其完全有信心的预测做出预测来实现高精度值,但这可能会导致它错过许多对象,从而降低召回率。同时,它也可以通过几乎在所有地方预测边界框来实现非常高的召回率,但这会降低精度。

图 4. 准确率和召回率。图片由作者提供。

平均精度

精确度和召回率可以帮助我们了解模型在单个预测中的表现,而平均精确度AP) 则可以提供更广泛的视角。它说明了模型在尝试detect 更多物体时精确度的变化情况,并将其性能总结为一个数字。

为了计算平均精度分数,我们可以首先为每种类型的对象创建一个组合的图表式指标,称为精确率-召回率曲线(或 PR 曲线)。该曲线显示了模型进行更多预测时会发生什么。 

假设模型一开始只检测最容易或最明显的物体。在这一阶段,精确度很高,因为大多数预测都是正确的,但召回率很低,因为仍有许多物体被遗漏。随着模型尝试detect 更多的物体,包括更难或更罕见的物体,它通常会引入更多的错误。这会导致精确度下降,而召回率上升。

平均精度就是曲线下的面积(PR 曲线的 AUC)。面积越大,说明模型越能保持预测的准确性,即使在检测到更多物体时也是如此。AP 是针对每个类别标签分别计算的。 

例如,在一个可以detect 汽车、自行车和行人的模型中,我们可以分别计算这三类物体的AP 值。这有助于我们了解该模型擅长检测哪些物体,以及在哪些方面仍需改进。

图 5. 五个不同类别的 PR 曲线。(来源

平均精度均值

在计算出每个对象类别的平均精度后,我们仍然需要一个单一的分数来反映模型在所有类别中的整体表现。这可以通过平均精度平均值 公式来实现。它是每个类别AP 分数的平均值。

例如,假设YOLO11 等计算机视觉模型的汽车AP 值为 0.827,摩托车AP 值为 0.679,卡车AP 值为 0.355,公共汽车AP 值为 0.863,自行车AP 值为 0.982。使用mAP 公式,我们可以将这些数字相加,然后除以类别总数,如下所示: 

mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743

0.743 的mAP 分值为判断模型在所有对象类别中的表现提供了一个直接的解决方案。接近 1 的值表示模型对大多数类别都很准确,而较低的值则表示模型在某些类别上表现不佳。

AP 和mAP 在计算机视觉中的意义

现在,我们已经对AP 和mAP 的计算方法及其组成部分有了更好的了解,下面将概述它们在计算机视觉中的重要性:

  • 特定类别的AP 偏低:单一类别的低AP 通常意味着模型在处理该特定对象类别时遇到困难。这可能是由于训练数据不足或图像中存在视觉挑战(如遮挡)。
  • 定位错误: 在较低的IoU 阈值(如mAP下,mAP 值较高,而在较高的IoU 阈值(如mAP下,mAP 值则大幅下降,这表明模型可以detect 物体,但难以对其进行精确定位。
  • 过度拟合:如果训练数据集上的mAP 值较高,而验证数据集上的mAP 值较低,则表明存在过度拟合,使得模型无法可靠地处理新图像。

平均精度均值的实际应用

接下来,让我们探讨一下mAP 等关键指标在构建真实世界的计算机视觉用例时有何帮助。

自动驾驶汽车:为什么更高的mAP 值意味着更安全的道路

说到 自动驾驶汽车,物体检测对于识别行人、路标、骑车人和车道标记至关重要。例如,如果一个孩子突然跑过马路,汽车有几秒钟的时间来detect 物体(孩子),确定其位置,track 其移动,并采取必要的措施(踩刹车)。 

像YOLO11 这样的模型就是为在这种高风险情况下进行实时目标检测而设计的。在这种情况下,mAP 成为衡量安全性的关键指标。

高mAP 分值可确保系统快速检测到儿童,精确定位,并在最短时间内触发制动。如果mAP 较低,则可能意味着漏检或危险的错误分类,例如将儿童与另一个小物体混淆。

图 6.YOLO11 用于detect 路上行人的示例。(资料来源)

使用mAP 精确检测产品

类似地,在零售业中,目标检测模型可用于自动化库存监控和结账流程等任务。当顾客在自助结账时扫描商品时,检测错误可能会导致不满。

高mAP 分值可确保模型准确区分同类产品,并绘制精确的边界框,即使物品包装紧密也不例外。低mAP 分数可能会导致混淆。例如,如果模型将橙汁瓶误认为视觉上相似的苹果汁瓶,就可能导致错误的账单和不准确的库存报告。

与YOLO11 等机型集成的零售系统可以实时detect 产品,与库存进行核对,并即时更新后台系统。在快节奏的零售环境中,mAP 在保持运营的准确性和可靠性方面发挥着至关重要的作用。

利用高mAP 提高医疗诊断的准确性

要提高医疗诊断的准确性,首先要在医学成像中进行精确检测。像YOLO11 这样的模型可以帮助放射科医生从医学扫描中发现肿瘤、骨折或其他异常。在这方面,平均精度是评估模型临床可靠性的重要指标。

高mAP 表示模型同时实现了高召回率(识别出最实际的问题)和高精确度(避免误报),这在临床决策中至关重要。此外,医疗保健领域的IoU 临界值通常设置得很高(0.85 或 0.90),以确保检测极为准确。

然而,低mAP 评分可能会引起人们的担忧。比方说,模型漏掉了一个肿瘤;这可能会延误诊断或导致错误的治疗。 

使用mAP的利弊

以下是使用平均精度均值 (mean average precision) 评估目标检测模型的关键优势:

  • 标准化指标: mAP 是评估物体检测模型的行业标准。mAP 值可对不同模型进行公平、一致的比较。
  • 反映真实世界的性能: 高mAP 表示模型擅长检测各种物体类别,并在复杂的真实世界场景中保持强劲的性能。
  • 分类诊断: mAP 分数可单独评估每个类别的检测性能。这样就能更容易地识别表现不佳的类别(如自行车或路标),并对模型进行相应的微调。

虽然使用mAP 指标有各种好处,但也要考虑一些限制因素。以下是几个需要考虑的因素:

  • 非技术利益相关者难以理解:业务或临床团队可能会觉得mAP 值很抽象,不像更直观易懂的指标。
  • 不反映实时限制: mAP 不考虑推理速度或延迟,而这对于在时间敏感的应用中部署至关重要。

主要要点

我们已经看到,平均精度不仅仅是一个技术分数,它还反映了模型在现实世界中的潜在性能。无论是在自动驾驶汽车系统中还是在零售结账中,高mAP 分数都是衡量模型性能和实用性的可靠指标。

虽然mAP 是一个重要且有影响力的指标,但应将其视为全面评估策略的一部分。对于医疗保健和自动驾驶等关键应用而言,仅仅依靠mAP 是不够的。 

还必须考虑其他因素,如推理速度(模型进行预测的速度)、模型大小(影响在边缘设备上的部署)和定性误差分析(了解模型所犯错误的类型),以确保系统安全、高效且真正适合其预期用途。

加入我们不断壮大的社区GitHub代码仓库,以了解更多关于计算机视觉的信息。探索我们的解决方案页面,以了解农业领域的计算机视觉物流领域的AI的应用。查看我们的许可选项,立即开始构建您自己的计算机视觉模型!

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始