了解机器学习中的准确率、精确率和召回率。探索混淆矩阵、F1 分数以及如何使用这些重要的评估指标。

了解机器学习中的准确率、精确率和召回率。探索混淆矩阵、F1 分数以及如何使用这些重要的评估指标。
机器学习 (ML) 是人工智能 (AI) 的一个分支,专注于创建从数据中学习的系统。它在许多其他人工智能领域发挥着核心作用,包括计算机视觉(机器在其中解释图像)和自然语言处理(机器在其中理解和生成人类语言)。
通常,这类 AI 模型会使用深度学习技术来根据数据进行预测。虽然这些系统可能非常有效,但并非总是能产生正确的预测。有些输出可能准确,而另一些则可能偏离目标。
了解这些错误的发生方式是评估模型性能的关键部分。为了衡量性能,我们可以使用 模型评估指标。
常见的评估指标包括准确率(总体正确性)、精确率(正面预测的可靠性)和召回率(模型识别实际正面的能力)。 它们起初可能看起来相似,但每一个都侧重于模型行为的不同方面。
在本文中,我们将仔细研究这些 AI 模型性能指标中的每一个。我们还将探讨它们之间的相互关系,以及如何为您的用例选择合适的指标。让我们开始吧!
机器学习 模型起初可能看起来表现良好。但是,如果没有正确的评估指标,就很难理解其结果的准确性。这些指标为模型评估提供了结构,并有助于回答一个关键问题:对于给定的任务,模型的预测是否有用且可靠?
诸如准确率、精确率和召回率之类的指标为 AI 开发人员提供了一种清晰的方式来衡量模型的运行状况。例如,在比较不同的模型时,这些指标可以清楚地表明哪一个对于特定任务表现最佳。它们有助于评估性能并指导选择最符合 AI 项目目标的模型。
这些指标也使性能比较更客观。它们不依赖于猜测或不完整的观察,而是提供可衡量的洞察力,了解模型在不同情况下的行为。通过这样做,它们突出了在每种情况下最重要的性能方面。
例如,指标的选择通常取决于应用场景。在 AI 医疗保健应用中,召回率非常重要,因为目标是尽可能多地识别出阳性病例,即使某些阴性病例被错误地标记出来。相比之下,电子邮件垃圾邮件过滤器可能会优先考虑精确率,以避免将合法的电子邮件错误地标记为垃圾邮件。
混淆矩阵是一个二乘二的表格,是评估 AI 模型的基础。它通过比较实际结果与预测结果(模型给出的答案)将预测组织成四个类别。
此比较提供了模型性能的详细视图。它构成了诸如精确率和召回率之类的关键评估指标的基础,这些指标直接从矩阵中的值计算得出。
该表的行代表实际类别,列代表预测类别。每个单元格显示该类别中的结果计数。简而言之,它展示了有多少预测是正确的,以及模型产生的误差类型。
当数据不平衡时,混淆矩阵特别有用,这意味着某些类别比其他类别具有更多的示例。当不同类型的错误带来不同的成本时,它也很有用。
例如,在欺诈检测中,捕捉欺诈活动至关重要,但错误地标记真实交易也会导致问题。该矩阵清楚地表明了每种错误发生的频率。
以下是混淆矩阵中不同元素的概述:
混淆矩阵以网格格式显示。纵轴显示实际类别,横轴显示预测类别。正确的预测显示在对角线上,表示真阳性和真阴性。
错误位于对角线之外,涵盖了假阳性和假阴性。这种结构便于发现优势和劣势。
准确率(Accuracy)是评估机器学习模型性能的最广泛使用的指标之一。 它衡量的是所有类别中预测正确的频率。 换句话说,它回答了一个简单的问题:在 AI 模型做出的所有预测中,有多少是正确的?
准确率的公式是正确预测的数量(包括真阳性和真阴性)除以预测的总数。准确率易于计算且易于理解,这使其成为模型评估中常见的起点。
通常,在处理平衡数据集时,准确率是可靠的。但是,在不平衡的数据集中,准确率通常会产生误导,因为其中一个类别会支配其他类别。始终预测多数类的模型仍然可以获得很高的准确率,但无法检测到其他少数类。
例如,在一个图像数据集中,只有少数图像包含行人,一个对每张图像都预测“没有行人”的模型可能仍然可以获得很高的准确率,但完全无法检测到实际的行人。
这是因为仅凭准确率并不能显示模型会犯什么样的错误或发生的频率。这就是为什么同时查看精确率和召回率等指标以充分了解 AI 模型的工作效果非常重要的原因。
精确率(Precision)是一个关键的评估指标,用于衡量模型预测为正例的准确性。它回答了以下问题: 在所有预测为正例的实例中,有多少是正确的?
精确率的计算公式是真正例的数量除以真正例和假正例之和。当阳性预测结果一旦出错代价很高时,这一点尤其重要。
例如,在欺诈检测中,低精确度的模型可能会将许多有效的交易标记为欺诈,从而给用户和支持团队带来不必要的问题。高精确度的模型可以确保标记的交易更有可能是实际的欺诈行为,从而降低这种风险。
虽然高精度是好的,但过于关注精度的模型可能会变得非常挑剔,从而遗漏实际的正例。这就是为什么通常将精度指标与召回率一起检查以保持性能平衡的原因。
召回率(Recall)是一种用于衡量模型识别实际正例能力的指标。它也被称为灵敏度或真正率,它回答了以下问题:在所有实际的正例中,模型正确检测到了多少?
召回率的公式是真阳性的数量除以真阳性和假阴性的总和。高召回率表明该模型正在捕获数据中的大多数真实阳性案例。
召回率在医疗保健等行业至关重要,因为未能检测到病情可能会延误治疗并使患者面临风险。即使某些阴性病例被错误标记,识别所有真阳性病例仍然是首要任务。
然而,仅关注召回率的模型可能会标记过多的假阳性,从而降低精度并损害模型的整体效率。平衡召回率和精度对于可靠的 AI 模型性能至关重要。
精确率和召回率通常朝着相反的方向变化。当其中一个指标提高时,另一个指标可能会下降。这种权衡是机器学习任务中常见的挑战。
高精度模型仅在确信时才将某事物预测为正例。这减少了误报,但可能会遗漏真正的正例,从而降低召回率。试图捕获每个正例的模型会提高召回率,但会冒更多误报的风险,从而降低精度。
当您调整模型的决策阈值时,这种权衡变得更加清晰。阈值是系统用来将分数或概率转换为操作或标签的截止值。降低阈值会使系统更频繁地采取积极行动,这可以提高召回率,但可能会降低精确率。提高阈值会产生相反的效果:模型预测的阳性结果更少,精确率提高,但召回率通常会下降。
假设您正在进行垃圾邮件检测。模型必须平衡将垃圾邮件放入收件箱的风险与阻止真实邮件的风险。严格的过滤器可能仍然会遗漏一些垃圾邮件,而更宽松的过滤器可能会意外阻止合法的邮件。正确的平衡取决于用例和每种类型错误的成本。
精确率-召回率曲线(PR 曲线)显示了随着模型决策阈值的变化,精确率和召回率如何变化。每个点代表两者之间不同的权衡。PR 曲线对于非平衡数据集尤其有用,在非平衡数据集中,一个类别的频率远低于其他类别。
它也提供了比受试者工作特征 (ROC) 曲线更有意义的洞察,后者也显示了模型在不同决策阈值下区分正例和负例的能力。一个具有高精确率和高召回率的模型将具有一条接近右上角的精确率-召回率曲线,这通常是理想的。
F1-score提供了一个单一值,可以衡量精确率和召回率之间的平衡。F1-score 的计算方法是精确率和召回率乘积的两倍,除以精确率和召回率之和。当假正例和假负例都很重要时,以及当处理不平衡数据集或需要平衡的模型性能视图时,它非常有用。
虽然准确率、精确率和召回率至关重要,但其他指标可以根据模型类型和数据集特征提供额外的见解。
以下是一些常用的指标,可帮助评估性能的各个方面:
既然我们对准确率、精确率和召回率有了更清晰的了解,那么让我们来了解一下这些指标在计算机视觉中的应用。
诸如 Ultralytics YOLO11 等计算机视觉模型支持诸如物体检测之类的任务,该模型识别图像中存在的物体,并使用边界框来定位它们。每个预测都包括物体标签及其位置,这使得评估比简单地检查标签是否正确更为复杂。
考虑一个零售应用,其中使用摄像头自动跟踪货架上的产品。对象检测模型可以识别诸如麦片盒、苏打水罐或瓶装水之类的物品,并标记它们的位置。
在这种情况下,精确率告诉我们检测到的项目中实际正确的有多少。高精确率意味着系统避免了误报,例如将阴影或背景对象标记为产品。召回率显示了模型设法检测到的货架上真实产品的数量。高召回率意味着遗漏的商品更少,这对于准确的库存计数至关重要。
准确率仍然可以提供正确性的一般度量,但在这种情况下,即使遗漏几个产品或检测到不存在的物品,也可能对库存管理产生重大影响。这就是为什么开发人员将精确率、召回率和准确率结合起来考虑,以确保系统对于实际使用既可靠又实用。
准确率、精确率和召回率分别展示了机器学习模型性能的不同方面。仅依赖一个指标可能会产生误导。
诸如混淆矩阵、精确率-召回率曲线和F1分数之类的工具和指标有助于揭示权衡,并指导改进ML模型的决策。通过为特定的AI解决方案选择正确的指标组合,您可以确保模型在实际应用中准确、可靠且有效。
探索我们不断壮大的社区!查看我们的GitHub 仓库以了解更多关于 AI 的信息。准备好开始您的计算机视觉项目了吗?看看我们的许可选项。访问我们的解决方案页面,探索农业中的 AI和机器人技术中的视觉 AI!