人工智能的应用正在迅速增长,从自动驾驶汽车到能够识别货架上产品的零售系统,人工智能正被集成到各种创新中。这些技术依赖于计算机视觉,这是人工智能(AI)的一个分支,能让机器分析视觉数据。
用于衡量计算机视觉系统和算法准确性的一个关键评估指标是平均精度(mAP)。mAP 指标表明视觉人工智能模型的预测与实际结果的匹配程度。
mAP 是用于评估物体检测模型性能的标准指标,被广泛用于对Ultralytics YOLO11 等深度学习模型进行基准测试。
在本文中,我们将了解平均精度的计算方法,以及为什么平均精度对于训练或评估物体检测模型至关重要。让我们开始吧!
平均精度是一个分数,它显示了深度学习模型在完成与视觉信息检索相关的任务(如检测和识别图像中的不同物体)时的准确度。例如,考虑一个物体检测模型,分析一张包含一只狗、一只猫和一辆车的照片。一个可靠的模型可以通过识别每个物体并在其周围绘制边框和标签来执行物体检测,从而突出显示物体的位置和特征。
mAP 表明模型在许多图像和不同类型的物体中执行这项任务的能力。它检查模型是否能准确识别每个物体及其在图像中的位置。分数范围从 0 到 1,1 表示模型完美地找到了所有物体,0 表示模型未能检测到任何物体。
在探讨机器学习平均精度背后的概念之前,我们先来了解一下两个基本术语:基本事实和预测。
地面实况指的是准确的参考数据,其中的物体及其在图像中的位置都是由人类通过注释过程仔细标注的。同时,预测是人工智能模型分析图像后得出的结果。通过将人工智能模型的预测结果与地面实况进行比较,我们可以衡量模型与正确结果的接近程度。
混淆矩阵通常用于了解物体检测模型的精确程度。它是一张表格,显示了模型预测与实际正确答案(地面实况)的匹配程度。从这个表格中,我们可以得到四个关键部分或结果的细分:真阳性、假阳性、假阴性和真阴性。
下面是这些成分在混淆矩阵中的表示:
真负片在物体检测中并不常用,因为我们通常会忽略图像中的许多空白区域。然而,在其他计算机视觉任务中,如 图像分类,模型会给图像指定一个标签,因此真负值是必不可少的。例如,如果任务是检测图像中是否包含一只猫,而当图像中没有猫时,模型能正确识别出 "没有猫",这就是真负值。
评估物体检测模型的另一个重要指标是 " 交集大于联合"(IoU)。对于此类视觉人工智能模型来说,仅仅检测图像中是否存在物体是不够的,还需要确定物体在图像中的位置,以便绘制边界框。
IoU 指标衡量模型预测的方框与实际正确方框(地面实况)的匹配程度。得分介于 0 和 1 之间,1 表示完全匹配,0 表示完全没有重叠。
例如,较高的 IoU(如 0.80 或 0.85)表示预测方框与地面实况方框非常接近,表明定位准确。较低的 IoU(如 0.30 或 0.25)表示模型没有准确定位物体。
为了确定检测是否成功,我们使用了不同的阈值。常见的 IoU 阈值是 0.5,这意味着预测方框必须与地面实况方框重叠至少 50%,才能算作真阳性。任何低于该阈值的重叠都被视为假阳性。
到目前为止,我们已经探讨了一些基本的评估指标,以了解物体检测模型的性能。在此基础上,两个最重要的指标是精确度和召回率。它们能让我们清楚地了解模型检测的准确度。让我们来看看它们是什么。
精度值告诉我们,模型的预测有多少是真正正确的。它回答了这样一个问题:在模型声称探测到的所有物体中,有多少是真正存在的?
召回值则衡量模型找到图像中所有实际物体的程度。它回答的问题是:在所有实际存在的物体中,模型正确检测到了多少?
精确度和召回率合在一起,能让我们更清楚地了解模型的性能如何。例如,如果一个模型预测图像中有 10 辆汽车,其中 9 辆确实是汽车,那么它的精确度就是 90%(正面预测)。
这两个评价指标往往需要权衡:一个模型可以通过只预测它完全有把握的对象来达到很高的精度值,但这可能会导致它漏掉很多对象,从而降低召回率水平。同时,它也可以通过预测几乎所有地方的边界框来达到非常高的召回率,但这会降低精度。
精确度和召回率可以帮助我们了解模型在单个预测中的表现,而平均精确度 (AP) 则可以提供更广泛的视角。它说明了模型在尝试检测更多物体时精确度的变化情况,并将其性能总结为一个数字。
要计算平均精确度得分,我们可以首先为每种类型的对象创建一个类似于图表的组合指标,称为精确度-调用曲线(或 PR 曲线)。这条曲线显示了随着模型预测次数的增加而发生的变化。
假设模型一开始只检测最容易或最明显的物体。在这一阶段,精确度很高,因为大多数预测都是正确的,但召回率很低,因为仍有许多物体被遗漏。随着模型尝试检测更多的物体,包括更难或更罕见的物体,它通常会引入更多的错误。这会导致精确度下降,而召回率上升。
平均精度就是曲线下的面积(PR 曲线的 AUC)。面积越大,说明模型越能保持预测的准确性,即使在检测到更多物体时也是如此。AP 是针对每个类别标签分别计算的。
例如,在一个可以检测汽车、自行车和行人的模型中,我们可以分别计算这三类物体的 AP 值。这有助于我们了解该模型擅长检测哪些物体,以及在哪些方面仍需改进。
在计算出每个对象类别的平均精度后,我们仍然需要一个单一的分数来反映模型在所有类别中的整体表现。这可以通过平均精度平均值 公式来实现。它是每个类别 AP 分数的平均值。
例如,假设 YOLO11 等计算机视觉模型的汽车 AP 值为 0.827,摩托车 AP 值为 0.679,卡车 AP 值为 0.355,公共汽车 AP 值为 0.863,自行车 AP 值为 0.982。使用 mAP 公式,我们可以将这些数字相加,然后除以类别总数,如下所示:
mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743
0.743 的 mAP 分值为判断模型在所有对象类别中的表现提供了一个直接的解决方案。接近 1 的数值意味着模型对大多数类别都很准确,而较低的数值则表明模型在某些类别上表现不佳。
现在,我们已经对 AP 和 mAP 的计算方法及其组成部分有了更好的了解,下面将概述它们在计算机视觉中的重要性:
接下来,让我们探讨一下 mAP 等关键指标在构建真实世界的计算机视觉用例时有何帮助。
说到 自动驾驶汽车,物体检测对于识别行人、路标、骑车人和车道标记至关重要。例如,如果一个孩子突然跑过马路,汽车有几秒钟的时间来检测物体(孩子),确定其位置,跟踪其移动,并采取必要的措施(踩刹车)。
像 YOLO11 这样的模型就是为在这种高风险场景中进行实时目标检测而设计的。在这种情况下,mAP 成为衡量安全性的关键指标。
高 mAP 分值可确保系统快速检测到儿童,精确定位,并在最短时间内触发制动。如果 mAP 分数较低,则可能意味着漏检或危险的错误分类,例如将儿童与另一个小物体混淆。
同样,在 零售业,对象检测模型可用于自动执行库存监控和结账流程等任务。当顾客在自助结账机上扫描产品时,如果检测出错,就会引起顾客的不满。
高 mAP 分值可确保模型准确区分同类产品,并绘制精确的边界框,即使物品包装紧密也不例外。低 mAP 分数可能会导致混淆。例如,如果模型将橙汁瓶误认为视觉上相似的苹果汁瓶,就可能导致错误的账单和不准确的库存报告。
与 YOLO11 等机型集成的零售系统可以实时检测产品,与库存进行核对,并即时更新后台系统。在快节奏的零售环境中,mAP 在保持运营的准确性和可靠性方面发挥着至关重要的作用。
要提高医疗诊断的准确性,首先要在医学成像中进行精确检测。像 YOLO11 这样的模型可以帮助放射科医生从医学扫描中发现肿瘤、骨折或其他异常。在这方面,平均精度是评估模型临床可靠性的重要指标。
高 mAP 表示模型同时实现了高召回率(识别出最实际的问题)和高精确度(避免误报),这在临床决策中至关重要。此外,医疗保健领域的 IoU 临界值通常设置得很高(0.85 或 0.90),以确保检测极为准确。
然而,低 mAP 评分可能会引起人们的担忧。比方说,模型漏掉了一个肿瘤;这可能会延误诊断或导致错误的治疗。
以下是使用平均精度来评估物体检测模型的主要优势:
虽然使用 mAP 指标有各种好处,但也要考虑一些限制因素。以下是几个需要考虑的因素:
我们已经看到,平均精度不仅仅是一个技术分数,它还反映了模型在现实世界中的潜在性能。无论是在自动驾驶汽车系统中还是在零售结账中,高 mAP 分数都是衡量模型性能和实用性的可靠指标。
虽然 mAP 是一个重要且有影响力的指标,但应将其视为全面评估策略的一部分。对于医疗保健和自动驾驶等关键应用而言,仅仅依靠 mAP 是不够的。
此外,还必须考虑推理速度(模型进行预测的速度)、模型大小(影响边缘设备的部署)和定性错误分析(了解模型所犯错误的类型)等其他因素,以确保系统安全、高效,并真正适合其预期目的。
加入我们不断壮大的社区和 GitHub 存储库,了解有关计算机视觉的更多信息。浏览我们的解决方案页面,了解计算机视觉在农业和 人工智能物流 中的应用。查看我们的许可选项,立即开始使用您自己的计算机视觉模型!