机器学习(ML)是人工智能(AI)的一个分支,主要是创建从数据中学习的系统。它在人工智能的许多其他领域发挥着核心作用,包括计算机视觉(机器解读图像)和自然语言处理(机器理解并生成人类语言)。
通常,这类人工智能模型使用深度学习技术从数据中进行预测。虽然这类系统可以非常有效,但它们并不总能做出正确的预测。有些输出可能是准确的,而有些则会偏离目标。
了解这些错误是如何发生的,是评估模型性能的关键部分。为了衡量性能,我们可以使用模型评估指标。
常见的评估指标包括准确度(总体正确性)、精确度(正面预测的可靠性)和召回率(模型识别实际正面结果的能力)。这些指标初看起来可能相似,但每个指标都侧重于模型行为的不同部分。
在本文中,我们将仔细研究这些人工智能模型的性能指标。我们还将探讨它们之间的关系,以及如何为您的使用案例选择合适的指标。让我们开始吧!
机器学习模型最初可能看起来性能良好。但如果没有正确的评估指标,就很难了解其结果有多准确。这些指标为模型评估提供了结构,有助于回答一个关键问题:模型的预测对特定任务是否有用和可靠?
准确率、精确度和召回率等指标为人工智能开发人员提供了衡量模型效果的明确方法。例如,在比较不同的模型时,这些指标可以帮助我们了解哪个模型在特定任务中表现最佳。它们有助于评估性能,并指导选择最适合人工智能项目目标的模型。
这些指标还使性能比较更加客观。它们不再依赖于猜测或不完整的观察,而是对模型在不同情况下的表现提供了可衡量的见解。这样,它们就能突出在各种情况下哪些方面的性能最重要。
例如,指标的选择往往取决于应用。在人工智能医疗保健应用中,召回率非常重要,因为目标是识别尽可能多的阳性病例,即使一些阴性病例被错误标记。相比之下,垃圾邮件过滤器可能会优先考虑精确度,以避免将合法邮件错误地标记为垃圾邮件。
混淆矩阵是一个二乘二的表格,是评估人工智能模型的基础。它通过比较实际结果和预测结果(模型给出的答案),将预测结果分为四类。
通过比较,可以详细了解模型的性能。它是精确度和召回率等关键评价指标的基础,而精确度和召回率是直接从矩阵中的值计算出来的。
表格的行代表实际类别,列代表预测类别。每个单元格都显示了该类别的结果数。简而言之,它展示了有多少预测是正确的,以及模型所犯的错误类型。
当数据不平衡时,即某些类别比其他类别有更多例子时,混淆矩阵尤其有用。当不同类型的错误带来不同的代价时,混淆矩阵也很有用。
例如,在欺诈检测中,抓住欺诈活动至关重要,但错误标记真实交易也会造成问题。矩阵清楚地说明了每种错误发生的频率。
以下是混淆矩阵中不同元素的概述:
混淆矩阵以网格格式显示。纵轴显示实际类别,横轴显示预测类别。正确的预测沿对角线显示,代表真阳性和真阴性。
错误位于对角线之外,包括假阳性和假阴性。这种结构便于发现优缺点。
准确度是评估机器学习模型性能最广泛使用的指标之一。它衡量的是预测在所有类别中的正确率。换句话说,它回答了一个简单的问题:在人工智能模型做出的所有预测中,有多少是正确的?
准确率的计算公式是正确预测数(包括真阳性和真阴性)除以预测总数。准确率的计算简单明了,易于理解,因此是模型评估的常见起点。
一般来说,在处理平衡数据集时,准确率是可靠的。然而,在不平衡的数据集上,一个类别主导了其他类别,准确率往往会产生误导。一个总是预测多数类的模型可能仍然会获得很高的准确率,但却无法检测到其他少数类。
例如,在一个图像数据集中,只有几张图像包含行人,如果一个模型对每张图像都预测 "没有行人",那么它可能仍然会达到很高的准确率,但却完全检测不到真正的行人。
这是因为精确度本身并不能说明模型会犯什么样的错误,也不能说明错误发生的频率。这就是为什么要同时关注精确度和召回率等指标,以全面了解人工智能模型的运行情况。
精度是衡量模型正向预测准确性的关键评估指标。它可以回答以下问题: 在所有预测为正向的实例中,有多少是正确的?
精确度公式是真阳性的数量除以真阳性和假阳性的总和。当预测结果为正时,如果预测结果是错误的,就会付出高昂的代价,这时精确度就显得尤为重要。
例如,在欺诈检测中,精确度低的模型可能会将许多有效交易标记为欺诈交易,从而给用户和支持团队带来不必要的麻烦。精度高的模型可确保标记的交易更有可能是实际欺诈,从而降低这种风险。
精确度高固然好,但过于注重精确度的模型可能会变得非常挑剔,从而错过实际的积极案例。这就是为什么精度指标经常与召回率一起检查,以保持性能平衡。
召回率是用来衡量模型识别实际阳性病例能力的指标。它被称为灵敏度或真阳性率,可以回答以下问题:在所有实际阳性案例中,模型正确检测到了多少?
召回率的计算公式是真阳性的数量除以真阳性和假阴性的总和。召回分数高,说明模型捕捉到了数据中大部分真实的阳性案例。
在医疗保健等行业中,召回至关重要,因为在这些行业中,如果检测不到病症,就会延误治疗并给患者带来风险。即使一些负面病例被错误标记,识别所有真实病例仍然是重中之重。
然而,只关注召回率的模型可能会标记出过多的误报,从而降低精度,损害模型的整体效率。平衡召回率和精确度对人工智能模型的可靠表现至关重要。
精确度和召回率通常会朝着相反的方向发展。当其中一个提高时,另一个就会下降。这种权衡是机器学习任务中常见的挑战。
高精度模型只有在有把握的情况下才会预测出阳性结果。这样可以减少误报,但可能会漏掉真正的阳性结果,从而降低召回率。试图捕捉每一个阳性结果的模型会提高召回率,但会有更多误报的风险,从而降低精确度。
当你调整模型的决策阈值时,这种权衡就会变得更加清晰。阈值是系统用于将分数或概率转化为行动或标签的分界线。降低阈值会使系统更频繁地采取积极行动,从而增加召回率,但可能会降低精确度。提高阈值则会产生相反的效果:模型预测的阳性结果减少,精确度提高,但召回率通常会下降。
假设您正在研究垃圾邮件检测。这个模型必须在垃圾邮件进入收件箱的风险和拦截真实邮件的风险之间取得平衡。严格的过滤器可能仍然会漏掉一些垃圾邮件,而较为宽松的过滤器则可能会意外拦截合法邮件。正确的平衡取决于使用案例和每种错误的成本。
精确率-召回率曲线或 PR 曲线显示了精确率和召回率如何随着模型决策阈值的变化而变化。每个点代表两者之间不同的权衡。PR 曲线对于不平衡数据集尤其有用,因为在不平衡数据集中,某一类的出现频率要低得多。
与接收者工作特征曲线(ROC)相比,它还能提供更有意义的洞察力。接收者工作特征曲线还能显示模型在不同决策阈值下区分正误的能力。一个同时具有高精确度和高召回率的模型,其精确度-召回率曲线会保持在右上角附近,这通常是最理想的状态。
F1 分数提供了一个单一的值,它可以捕捉精确度和召回率之间的平衡。F1 分数的计算方法是精确度和召回率乘积的两倍除以精确度和召回率的总和。当假阳性和假阴性都很重要时,它就很有用,当处理不平衡数据集或需要平衡地查看模型性能时,它也很有帮助。
准确率、精确度和召回率固然重要,但其他指标也能根据模型类型和数据集特征提供更多见解。
以下是一些常用指标,有助于评估不同方面的性能:
现在,我们对准确度、精确度和召回率有了更清晰的认识,让我们来看看这些指标在计算机视觉中是如何应用的。
Ultralytics YOLO11等计算机视觉模型支持物体检测等任务,在这些任务中,模型可以识别图像中存在的物体,并使用包围盒对其进行定位。每个预测都包括物体标签及其位置,这使得评估比简单检查标签是否正确更为复杂。
在零售应用中,摄像头用于自动跟踪货架上的产品。物体检测模型可以识别麦片盒、汽水罐或水瓶等物品,并标记它们的位置。
在这种情况下,精确度告诉我们有多少检测到的项目是真正正确的。高精度意味着系统避免了误报,例如将阴影或背景物体标为产品。召回率显示了模型成功检测到货架上多少件真实产品。高召回率意味着遗漏的商品更少,这对于准确的库存清点至关重要。
准确性仍然可以提供正确性的总体衡量标准,但在这种情况下,即使漏掉几件产品或检测到不存在的物品,也会对库存管理产生重大影响。这就是为什么开发人员要同时考虑精确度、召回率和准确度,以确保系统在实际使用中既可靠又实用。
准确度、精确度和召回率分别展示了机器学习模型性能的不同方面。只依赖一个指标可能会产生误导。
混淆矩阵、精确度-召回曲线和 F1 分数等工具和指标有助于揭示权衡,并指导改进 ML 模型的决策。通过为特定的人工智能解决方案选择正确的指标组合,可以确保模型在实际应用中准确、可靠和有效。
探索我们不断壮大的社区!查看我们的GitHub 存储库,了解有关人工智能的更多信息。准备好开始您的计算机视觉项目了吗?了解我们的许可选项。访问我们的解决方案页面,了解农业人工智能和机器人视觉人工智能!