什么是机器学习中的准确率（Accuracy）与精确率（Precision）和召回率（Recall） |Ultralytics

示例 H2

示例 H3

机器学习 (ML) 是人工智能 (AI) 的一个分支，专注于创建从数据中学习的系统。它在许多其他人工智能领域发挥着核心作用，包括计算机视觉（机器在其中解释图像）和自然语言处理（机器在其中理解和生成人类语言）。

通常，这类 AI 模型会使用深度学习技术来根据数据进行预测。虽然这些系统可能非常有效，但并非总是能产生正确的预测。有些输出可能准确，而另一些则可能偏离目标。

了解这些错误的发生方式是评估模型性能的关键部分。为了衡量性能，我们可以使用模型评估指标。

常见的评估指标包括准确率（总体正确性）、精确率（正面预测的可靠性）和召回率（模型识别实际正面的能力）。它们起初可能看起来相似，但每一个都侧重于模型行为的不同方面。

在本文中，我们将仔细研究这些 AI 模型性能指标中的每一个。我们还将探讨它们之间的相互关系，以及如何为您的用例选择合适的指标。让我们开始吧！

模型评估指标在机器学习中至关重要

机器学习模型起初可能看起来表现良好。但是，如果没有正确的评估指标，就很难理解其结果的准确性。这些指标为模型评估提供了结构，并有助于回答一个关键问题：对于给定的任务，模型的预测是否有用且可靠？

诸如准确率、精确率和召回率之类的指标为 AI 开发人员提供了一种清晰的方式来衡量模型的运行状况。例如，在比较不同的模型时，这些指标可以清楚地表明哪一个对于特定任务表现最佳。它们有助于评估性能并指导选择最符合 AI 项目目标的模型。

这些指标也使性能比较更客观。它们不依赖于猜测或不完整的观察，而是提供可衡量的洞察力，了解模型在不同情况下的行为。通过这样做，它们突出了在每种情况下最重要的性能方面。

例如，指标的选择通常取决于应用场景。在 AI 医疗保健应用中，召回率非常重要，因为目标是尽可能多地识别出阳性病例，即使某些阴性病例被错误地标记出来。相比之下，电子邮件垃圾邮件过滤器可能会优先考虑精确率，以避免将合法的电子邮件错误地标记为垃圾邮件。

混淆矩阵：分类指标的基础

混淆矩阵是一个二乘二的表格，是评估 AI 模型的基础。它通过比较实际结果与预测结果（模型给出的答案）将预测组织成四个类别。

此比较提供了模型性能的详细视图。它构成了诸如精确率和召回率之类的关键评估指标的基础，这些指标直接从矩阵中的值计算得出。

该表的行代表实际类别，列代表预测类别。每个单元格显示该类别中的结果计数。简而言之，它展示了有多少预测是正确的，以及模型产生的误差类型。

当数据不平衡时，混淆矩阵特别有用，这意味着某些类别比其他类别具有更多的示例。当不同类型的错误带来不同的成本时，它也很有用。

例如，在欺诈检测中，捕捉欺诈活动至关重要，但错误地标记真实交易也会导致问题。该矩阵清楚地表明了每种错误发生的频率。

混淆矩阵的要素

以下是混淆矩阵中不同元素的概述：

真阳性 (TP): 当模型正确预测阳性实例时，它被记录为真阳性。例如，计算机视觉模型正确地将图像中的车辆分类。
真阴性 (TN): 当模型正确识别出阴性实例时，就会出现真阴性。例如，电子邮件分类器将常规邮件标记为非垃圾邮件。
假阳性 (FP)： 模型错误地预测实例为正类结果，但实际情况是负类，从而产生假阳性。也称为 I 型错误，例如欺诈检测系统将有效的交易标记为欺诈交易。
假阴性 (FN)： 假阴性是指模型未能detect 阳性病例，而错误地将其预测为阴性。也称为 II 型误差，当诊断工具漏诊实际患病的病人时可能会出现这种情况。

混淆矩阵的可视化表示和解释

混淆矩阵以网格格式显示。纵轴显示实际类别，横轴显示预测类别。正确的预测显示在对角线上，表示真阳性和真阴性。

错误位于对角线之外，涵盖了假阳性和假阴性。这种结构便于发现优势和劣势。

机器学习中的准确率是什么？

准确率（Accuracy）是评估机器学习模型性能的最广泛使用的指标之一。它衡量的是所有类别中预测正确的频率。换句话说，它回答了一个简单的问题：在 AI 模型做出的所有预测中，有多少是正确的？

准确率的公式是正确预测的数量（包括真阳性和真阴性）除以预测的总数。准确率易于计算且易于理解，这使其成为模型评估中常见的起点。

一般来说，在处理平衡数据集时，准确率是可靠的。然而，在不平衡的数据集上，一个类别主导了其他类别，准确率往往会产生误导。一个总是预测多数类的模型可能仍然会获得很高的准确率，但却无法detect 其他少数类。

例如，在一个图像数据集中，只有几张图像包含行人，如果一个模型对每张图像都预测 "没有行人"，那么它可能仍然会达到很高的准确率，但却完全detect 不到真正的行人。

这是因为仅凭准确率并不能显示模型会犯什么样的错误或发生的频率。这就是为什么同时查看精确率和召回率等指标以充分了解 AI 模型的工作效果非常重要的原因。

深入精度：最大限度地减少误报

精确率（Precision）是一个关键的评估指标，用于衡量模型预测为正例的准确性。它回答了以下问题：在所有预测为正例的实例中，有多少是正确的？

精确率的计算公式是真正例的数量除以真正例和假正例之和。当阳性预测结果一旦出错代价很高时，这一点尤其重要。

例如，在欺诈检测中，低精确度的模型可能会将许多有效的交易标记为欺诈，从而给用户和支持团队带来不必要的问题。高精确度的模型可以确保标记的交易更有可能是实际的欺诈行为，从而降低这种风险。

虽然高精度是好的，但过于关注精度的模型可能会变得非常挑剔，从而遗漏实际的正例。这就是为什么通常将精度指标与召回率一起检查以保持性能平衡的原因。

什么是召回率 (recall)？

召回率是用来衡量模型识别实际阳性病例能力的指标。它被称为灵敏度或真阳性率，可以回答以下问题：在所有实际阳性案例中，模型正确detect 了多少？

召回率的公式是真阳性的数量除以真阳性和假阴性的总和。高召回率表明该模型正在捕获数据中的大多数真实阳性案例。

在医疗保健等行业中，召回至关重要，因为在这些行业中，如果detect 不到病症，就会延误治疗并给患者带来风险。即使一些负面病例被错误标记，识别所有真实病例仍然是重中之重。

然而，仅关注召回率的模型可能会标记过多的假阳性，从而降低精度并损害模型的整体效率。平衡召回率和精度对于可靠的 AI 模型性能至关重要。

平衡行为：精确率和召回率的权衡

精确率和召回率通常朝着相反的方向变化。当其中一个指标提高时，另一个指标可能会下降。这种权衡是机器学习任务中常见的挑战。

高精度模型仅在确信时才将某事物预测为正例。这减少了误报，但可能会遗漏真正的正例，从而降低召回率。试图捕获每个正例的模型会提高召回率，但会冒更多误报的风险，从而降低精度。

当您调整模型的决策阈值时，这种权衡变得更加清晰。阈值是系统用来将分数或概率转换为操作或标签的截止值。降低阈值会使系统更频繁地采取积极行动，这可以提高召回率，但可能会降低精确率。提高阈值会产生相反的效果：模型预测的阳性结果更少，精确率提高，但召回率通常会下降。

假设您正在进行垃圾邮件检测。模型必须平衡将垃圾邮件放入收件箱的风险与阻止真实邮件的风险。严格的过滤器可能仍然会遗漏一些垃圾邮件，而更宽松的过滤器可能会意外阻止合法的邮件。正确的平衡取决于用例和每种类型错误的成本。

精确率-召回率曲线的意义

精确率-召回率曲线（PR 曲线）显示了随着模型决策阈值的变化，精确率和召回率如何变化。每个点代表两者之间不同的权衡。PR 曲线对于非平衡数据集尤其有用，在非平衡数据集中，一个类别的频率远低于其他类别。

它也提供了比受试者工作特征 (ROC) 曲线更有意义的洞察，后者也显示了模型在不同决策阈值下区分正例和负例的能力。一个具有高精确率和高召回率的模型将具有一条接近右上角的精确率-召回率曲线，这通常是理想的。

介绍 F1-score：一种平衡的综合指标

F1-score提供了一个单一值，可以衡量精确率和召回率之间的平衡。F1-score 的计算方法是精确率和召回率乘积的两倍，除以精确率和召回率之和。当假正例和假负例都很重要时，以及当处理不平衡数据集或需要平衡的模型性能视图时，它非常有用。

超越准确率、精确率和召回率

虽然准确率、精确率和召回率至关重要，但其他指标可以根据模型类型和数据集特征提供额外的见解。

以下是一些常用的指标，可帮助评估性能的各个方面：

特异性（Specificity）：衡量模型识别实际负样本的能力。在避免假阳性非常重要时，此指标很有用。
AUC：AUC，或曲线下面积，给出一个单一的分数，反映了模型区分不同类别的能力。
对数损失： 对数损失用于衡量模型在进行预测时的置信度，并对高置信度下的错误预测给予更多惩罚。在这里，置信度是指模型对其预测的确定程度。
多标签评估：在多标签任务中，指标在标签之间取平均值，以反映整体模型性能。

在计算机视觉中应用准确率 (accuracy)、精确率 (precision) 和召回率 (recall)

既然我们对准确率、精确率和召回率有了更清晰的了解，那么让我们来了解一下这些指标在计算机视觉中的应用。

计算机视觉模型，如 Ultralytics YOLO11该模型可识别图像中存在的物体，并利用包围盒对其进行定位。每个预测都包括物体标签及其位置，这使得评估比简单检查标签是否正确更为复杂。

图 5.使用Ultralytics YOLO11 进行物体检测的示例。(资料来源）

在零售应用中，摄像头用于自动track 货架上的产品。物体检测模型可以识别麦片盒、汽水罐或水瓶等物品，并标记它们的位置。

在这种情况下，精确度告诉我们有多少检测到的项目是真正正确的。高精度意味着系统避免了误报，例如将阴影或背景物体标为产品。召回率显示了模型成功detect到货架上多少件真实产品。高召回率意味着遗漏的商品更少，这对于准确的库存清点至关重要。

准确率仍然可以提供正确性的一般度量，但在这种情况下，即使遗漏几个产品或检测到不存在的物品，也可能对库存管理产生重大影响。这就是为什么开发人员将精确率、召回率和准确率结合起来考虑，以确保系统对于实际使用既可靠又实用。

准确率、精确率和召回率：主要要点

准确率、精确率和召回率分别展示了机器学习模型性能的不同方面。仅依赖一个指标可能会产生误导。

诸如混淆矩阵、精确率-召回率曲线和F1分数之类的工具和指标有助于揭示权衡，并指导改进ML模型的决策。通过为特定的AI解决方案选择正确的指标组合，您可以确保模型在实际应用中准确、可靠且有效。

探索我们不断壮大的社区！查看我们的GitHub 仓库以了解更多关于 AI 的信息。准备好开始您的计算机视觉项目了吗？看看我们的许可选项。访问我们的解决方案页面，探索农业中的 AI和机器人技术中的视觉 AI！

机器学习中的准确率、精确率和召回率