了解目标检测中的平均精度均值 (mAP)。了解其含义、计算方法以及为什么 mAP 是评估模型性能的关键。

了解目标检测中的平均精度均值 (mAP)。了解其含义、计算方法以及为什么 mAP 是评估模型性能的关键。
人工智能的应用正在迅速增长,并且人工智能正在被整合到各种创新中,从自动驾驶汽车到可以识别货架上产品的零售系统。这些技术依赖于计算机视觉,它是人工智能 (AI) 的一个分支,使机器能够分析视觉数据。
用于衡量计算机视觉系统和算法准确性的一个关键评估指标是平均精度均值 (mAP)。mAP 指标表明 Vision AI 模型的预测与真实世界结果的匹配程度。
常见的计算机视觉任务是目标检测,其中模型识别图像中的多个目标并在其周围绘制边界框。mAP 是用于评估目标检测模型性能的标准指标,并广泛用于对 Ultralytics YOLO11 等深度学习模型进行基准测试。
在本文中,我们将了解平均精度均值是如何计算的,以及为什么它对于任何训练或评估目标检测模型的人来说都至关重要。让我们开始吧!
平均精度均值是一个评分,用于展示深度学习模型在执行与视觉信息检索相关的任务(例如检测和识别图像中的不同对象)时的准确程度。例如,考虑一个目标检测模型,该模型分析一张包含狗、猫和汽车的照片。一个可靠的模型可以通过识别每个对象并在其周围绘制边界框和标签来执行目标检测,从而突出显示对象的位置和内容。
mAP 指标表明模型在许多图像和不同类型的对象上执行此任务的效果如何。它检查模型是否准确识别每个对象及其在图像中的位置。分数范围从 0 到 1,其中 1 表示模型完美地找到了所有内容,而 0 表示它未能检测到任何对象。
在探讨机器学习中平均精度均值背后的概念之前,让我们先更好地理解两个基本术语:真实值(ground truth)和预测值(predictions)。
“Ground truth”(真值)指的是准确的参考数据,其中图像中的对象及其位置由人工通过称为标注的过程进行仔细标记。同时,预测是 AI 模型在分析图像后给出的结果。通过将 AI 模型的预测与真值进行比较,我们可以衡量模型的结果与正确结果的接近程度。
混淆矩阵 通常用于了解目标检测模型的精确度。它是一个表格,显示了模型的预测与实际正确答案(真实值)的匹配程度。从该表中,我们可以获得四个关键组成部分或结果的细分:真阳性、假阳性、假阴性和真阴性。
以下是这些组件在混淆矩阵中代表的含义:
真阴性在目标检测中不常用,因为我们通常忽略图像中的许多空白区域。但是,它在其他计算机视觉任务中至关重要,例如图像分类,模型在图像分类中会为图像分配标签。例如,如果任务是检测图像是否包含猫,并且当图像不包含猫时,模型正确识别出“没有猫”,这就是真阴性。
评估对象检测模型的另一个重要指标是交并比 (IoU)。对于此类视觉 AI 模型,仅检测图像中是否存在对象是不够的;它还需要定位对象在图像中的位置以绘制边界框。
IoU 指标衡量模型预测的框与实际正确框(ground truth)的匹配程度。分数介于 0 和 1 之间,其中 1 表示完全匹配,0 表示完全没有重叠。
例如,较高的 IoU(如 0.80 或 0.85)意味着预测框与真实框非常匹配,表明定位准确。较低的 IoU(如 0.30 或 0.25)意味着模型没有准确地定位对象。
为了确定检测是否成功,我们使用不同的阈值。一个常见的 IoU 阈值为 0.5,这意味着预测框必须与真实框重叠至少 50% 才能被视为真阳性。任何低于此阈值的重叠都被认为是假阳性。
到目前为止,我们已经探讨了一些用于理解目标检测模型性能的基本评估指标。在此基础上,最重要的两个指标是 精确率(precision)和召回率(recall)。它们可以清晰地反映模型检测的准确性。让我们来看看它们是什么。
精确率值告诉我们模型预测中有多少是真正正确的。它回答了这个问题:在模型声称检测到的所有对象中,有多少是真实存在的?
另一方面,召回率衡量的是模型在图像中找到所有实际对象的能力。它回答了这个问题:在所有真实存在的对象中,模型正确检测到了多少?
精确率和召回率共同为我们提供了模型性能的更清晰的图景。例如,如果一个模型预测图像中有10辆汽车,其中9辆确实是汽车,那么它的精确率为90%(一个积极的预测)。
这两个评估指标通常涉及权衡:模型可以通过仅对其完全有信心的预测做出预测来实现高精度值,但这可能会导致它错过许多对象,从而降低召回率。同时,它也可以通过几乎在所有地方预测边界框来实现非常高的召回率,但这会降低精度。
虽然精确率和召回率可以帮助我们了解模型在单个预测中的表现,但平均精度 (AP) 可以提供更广阔的视角。它说明了模型在尝试检测更多对象时,其精确率如何变化,并将模型的性能概括为一个数字。
为了计算平均精度分数,我们可以首先为每种类型的对象创建一个组合的图表式指标,称为精确率-召回率曲线(或 PR 曲线)。该曲线显示了模型进行更多预测时会发生什么。
考虑这样一种情况:模型首先只检测最容易或最明显的物体。在这个阶段,精度很高,因为大多数预测都是正确的,但召回率很低,因为仍然遗漏了很多物体。随着模型尝试检测更多的物体,包括更难或更稀有的物体,它通常会引入更多的错误。这导致精度下降,而召回率上升。
平均精度是曲线下的面积(PR 曲线的 AUC)。面积越大意味着模型在保持其预测准确性方面做得更好,即使它检测到更多的对象。AP 是为每个类别标签单独计算的。
例如,在一个可以检测汽车、自行车和行人的模型中,我们可以分别计算这三个类别的 AP 值。这有助于我们了解模型擅长检测哪些对象,以及哪些方面可能仍需要改进。
在计算出每个对象类别的平均精度后,我们仍然需要一个能够反映模型在所有类别中的总体性能的单一分数。这可以使用 平均精度均值 公式来实现。它平均了每个类别的 AP 分数。
例如,假设一个像 YOLO11 这样的计算机视觉模型对汽车的 AP 达到 0.827,对摩托车的 AP 达到 0.679,对卡车的 AP 达到 0.355,对公共汽车的 AP 达到 0.863,对自行车的 AP 达到 0.982。 使用 mAP 公式,我们可以将这些数字相加,然后除以总类别数,如下所示:
mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743
0.743 的 mAP 分数为判断模型在所有对象类别中的表现如何提供了一个简单的解决方案。接近 1 的值意味着该模型对于大多数类别都是准确的,而较低的值表明它在某些类别中存在困难。
现在我们对AP和mAP的计算方式以及它们的组成部分有了更好的了解,下面概述一下它们在计算机视觉中的重要性:
接下来,让我们探讨诸如 mAP 之类的关键指标如何在构建现实世界的计算机视觉用例时提供帮助。
在自动驾驶汽车方面,物体检测对于识别行人、道路标志、骑自行车的人和车道标记至关重要。 例如,如果一个孩子突然跑过街道,汽车需要在几秒钟内检测到物体(孩子),确定其位置,跟踪其运动,并采取必要的行动(踩刹车)。
像 YOLO11 这样的模型专为在这种高风险场景中进行实时对象检测而设计。在这些情况下,mAP 成为衡量安全性的关键指标。
高 mAP 分数可确保系统快速检测到儿童,精确定位他们,并以最短的延迟触发制动。低 mAP 可能意味着错过检测或危险的错误分类,例如将儿童与另一个小物体混淆。
类似地,在零售业中,目标检测模型可用于自动化库存监控和结账流程等任务。当顾客在自助结账时扫描商品时,检测错误可能会导致不满。
高 mAP 分数可确保模型准确区分相似产品并绘制精确的边界框,即使商品包装紧密。低 mAP 分数可能导致混淆。例如,如果模型将橙汁瓶误认为外观相似的苹果汁瓶,则可能导致错误的账单和不准确的库存报告。
与 YOLO11 等模型集成的零售系统可以实时检测产品,对照库存进行检查,并立即更新后端系统。在快节奏的零售环境中,mAP 在保持运营的准确性和可靠性方面起着至关重要的作用。
提高医疗保健领域的诊断准确性始于医学影像中的精确检测。像 YOLO11 这样的模型可以帮助放射科医生发现肿瘤、骨折或医学扫描中的其他异常。在这里,平均精度均值是评估模型临床可靠性的重要指标。
高 mAP 表明该模型实现了高召回率(识别出大多数实际问题)和高精度(避免误报),这在临床决策中至关重要。此外,医疗保健领域的 IoU 阈值通常设置得非常高(0.85 或 0.90),以确保极其准确的检测。
然而,较低的 mAP 分数可能会引起关注。例如,如果模型漏诊了肿瘤,可能会延误诊断或导致不正确的治疗。
以下是使用平均精度均值 (mean average precision) 评估目标检测模型的关键优势:
虽然使用 mAP 指标有很多好处,但也存在一些局限性需要考虑。以下是一些需要考虑的因素:
我们已经看到,平均精度均值不仅仅是一个技术分数,它还反映了模型在现实世界中的潜在性能。无论是在自动驾驶汽车系统还是在零售结账系统中,高 mAP 分数都可以作为模型性能和实际准备情况的可靠指标。
虽然 mAP 是一项至关重要且有影响力的指标,但应将其视为完善的评估策略的一部分。对于医疗保健和自动驾驶等关键应用,仅依赖 mAP 是不够的。
还必须考虑其他因素,如推理速度(模型进行预测的速度)、模型大小(影响在边缘设备上的部署)和定性误差分析(了解模型所犯错误的类型),以确保系统安全、高效且真正适合其预期用途。
加入我们不断壮大的社区和GitHub代码仓库,以了解更多关于计算机视觉的信息。探索我们的解决方案页面,以了解农业领域的计算机视觉和物流领域的AI的应用。查看我们的许可选项,立即开始构建您自己的计算机视觉模型!