遇见 YOLO26: 下一代视觉 AI。
Ultralytics
指南

机器学习中的准确率 vs. 精确率 vs. 召回率

了解机器学习中的准确率 (Accuracy)、精确率 (Precision) 和召回率 (Recall)。探索混淆矩阵、F1 分数以及如何使用这些重要的评估指标。

ABAbirami Vina
6 min read
机器学习中的准确率、精确率和召回率

机器学习 (ML) 是人工智能 (AI) 的一个分支,专注于创建能从数据中学习的系统。它在 AI 的许多其他领域中发挥着核心作用,包括计算机视觉,机器可以通过它来解读图像;以及自然语言处理,机器可以通过它来理解和生成人类语言。

通常,此类 AI 模型使用深度学习技术根据数据进行预测。虽然这些系统非常有效,但它们并不总是能得出正确的预测。有些输出可能很准确,而另一些则可能偏离目标。

了解这些错误是如何产生的,是评估模型性能的关键部分。为了衡量性能,我们可以使用模型评估指标

常见的评估指标包括准确率(整体正确性)、精确率(正向预测的可靠性)和召回率(模型识别实际正例的能力)。它们乍一看可能相似,但每一个都侧重于模型行为的不同方面。

在本文中,我们将深入探讨这些 AI 模型性能指标。我们还将探讨它们之间的相互关系,以及如何为你的用例选择正确的指标。让我们开始吧!

Link to this section模型评估指标在机器学习中至关重要#

一个机器学习模型刚开始可能看起来表现良好。但如果没有合适的评估指标,就很难理解其结果的准确程度。这些指标为模型评估提供了结构,并有助于回答一个关键问题:模型的预测对于给定的任务是否有用且可靠?

准确率、精确率和召回率等指标为 AI 开发者提供了一种清晰的方法来衡量模型的运行效果。例如,在比较不同模型时,这些指标可以让你看出哪个模型在特定任务上表现最好。它们有助于评估性能,并指导你选择最符合 AI 项目目标的那款模型。

模型训练与评估工作流

图 1. 模型训练和评估工作流程 (来源)

这些指标还使性能比较更加客观。它们不仅依靠猜测或不完整的观察,还提供了关于模型在不同情况下表现的可量化见解。通过这种方式,它们突显了在每种背景下哪些性能方面最为重要。

例如,指标的选择通常取决于具体的应用。在医疗 AI 应用中,召回率非常重要,因为目标是尽可能多地识别出阳性病例,即使有些阴性病例被错误地标记出来也在所不惜。相比之下,电子邮件垃圾邮件过滤器可能会优先考虑精确率,以避免将合法邮件错误地标记为垃圾邮件。

Link to this section混淆矩阵:分类指标的基础#

混淆矩阵是一个二乘二的表格,是评估 AI 模型的根本。它通过比较实际结果与预测结果(模型给出的答案),将预测分为四类。

这种比较提供了模型性能的详细视图。它构成了诸如精确率和召回率等关键评估指标的基础,这些指标直接根据矩阵中的数值计算得出。

表格的行代表实际类别,列代表预测类别。每个单元格显示该类别结果的计数。简单来说,它展示了有多少预测是正确的,以及模型犯了哪些类型的错误。

当数据不平衡时,即某些类别的例子比其他类别多得多时,混淆矩阵特别有用。当不同类型的错误产生不同的后果(成本)时,它也很有帮助。

例如,在欺诈检测中,捕捉欺诈活动至关重要,但错误地标记真实交易也会带来麻烦。该矩阵清晰地表明了每种类型的错误发生的频率。

Link to this section混淆矩阵的要素#

以下是混淆矩阵中不同要素的概述:

  • 真正例 (TP): 当模型正确预测出正实例时,它被记录为真正例。例如,一个计算机视觉模型正确地对图像中的车辆进行了分类。
  • 真负例 (TN): 当模型正确识别出负实例时,就会出现真负例。例如,电子邮件分类器将一条常规邮件标记为非垃圾邮件。
  • 假正例 (FP): 当模型错误地预测一个实际上为负的实例为正时,会生成假正例。也被称为 I 类错误,当欺诈检测系统将一笔合法交易标记为欺诈时,就可能发生这种情况。
  • 假负例 (FN): 当模型未能检测到正例并错误地将其预测为负时,会被记录为假负例。也被称为 II 类错误,这可能发生在诊断工具漏诊了实际患病的患者时。

混淆矩阵的要素

图 2. 混淆矩阵的要素 (来源)

Link to this section混淆矩阵的视觉表示与解读#

混淆矩阵以网格格式显示。垂直轴显示实际类别,水平轴显示预测类别。正确的预测出现在对角线上,代表真正例和真负例。

错误则落在对角线之外,涵盖了假正例和假负例。这种结构使得识别优点和缺点变得简单。

Link to this section什么是机器学习中的准确率 (Accuracy)?#

准确率是评估机器学习模型表现最常用的指标之一。它衡量在所有类别中预测正确的频率。换句话说,它回答了一个简单的问题:在 AI 模型做出的所有预测中,有多少是正确的?

准确率的公式是正确预测的数量(包括真正例和真负例)除以总预测数。准确率计算直观且易于理解,这使其成为模型评估的常见起点。

通常,在处理平衡数据集时,准确率是可靠的。然而,在类别不平衡的数据集中,准确率往往会产生误导。一个总是预测多数类别的模型可能会获得高准确率,但却无法检测到其他少数类别。

例如,在一个只有少数图片包含行人的图片数据集中,一个对每张图都预测“无行人”的模型可能仍然会获得很高的准确率,但却完全无法检测到真正的行人。

这是因为准确率本身并没有显示模型犯了什么样的错误,也没有显示这些错误发生的频率。这就是为什么查看精确率和召回率等指标以充分了解 AI 模型的运行情况非常重要。

Link to this section深入了解精确率 (Precision):最大限度减少误报#

精确率是一个关键的评估指标,用于衡量模型正向预测的准确度。它回答了这个问题:在所有被预测为正的实例中,有多少是正确的?

精确率的公式是真正例的数量除以真正例和假正例之和。当错误的正向预测会带来巨大损失时,它显得尤为重要。

比较准确率与精确率

图 3. 比较准确率和精确率。(来源)

例如,在欺诈检测中,一个低精确率的模型可能会将许多合法交易标记为欺诈,给用户和支持团队造成不必要的麻烦。一个高精确率的模型通过确保被标记的交易更有可能是真正的欺诈来降低这种风险。

虽然高精确率是好事,但过度关注它的模型可能会变得非常挑剔,从而漏掉真正的正例。这就是为什么通常会同时检查精确率和召回率以保持性能平衡。

Link to this section什么是召回率 (Recall)?#

召回率是用于衡量模型识别实际正例效果的指标。它被称为敏感性或真正例率,它回答了这个问题:在所有实际正例中,模型正确检测到了多少?

召回率的公式是真正例的数量除以真正例和假负例之和。高召回率得分表明模型正在捕获数据中绝大多数的真实正例。

召回率在医疗保健等行业至关重要,因为无法检测到某种状况会延误治疗并将患者置于危险之中。即使有些阴性病例被错误地标记出来,识别出所有真实病例仍然是最高优先级。

然而,仅关注召回率的模型可能会标记出太多的假正例,这会降低精确率并损害模型的整体效率。平衡召回率和精确率对于可靠的 AI 模型性能至关重要。

Link to this section平衡的艺术:精确率与召回率的权衡#

精确率和召回率往往朝着相反的方向发展。当一个指标提高时,另一个可能会下降。这种权衡是机器学习任务中常见的挑战。

高精确率模型仅在确定时才将某事物预测为正。这减少了误报,但可能会错过真正的正例,从而降低召回率。试图捕捉每一个正例的模型提高了召回率,但会面临更多误报的风险,从而降低了精确率。

当你调整模型的决策阈值时,这种权衡会变得更加清晰。阈值是系统用来将分数或概率转化为行动或标签的分界点。降低阈值会使系统更频繁地采取正向行动,这可以提高召回率,但可能会降低精确率。提高阈值则有相反的效果:模型预测的正例减少,精确率提高,但召回率通常会下降。

假设你正在进行垃圾邮件检测。模型必须平衡让垃圾邮件进入收件箱的风险与阻止真实邮件的风险。严格的过滤器可能仍然会漏掉一些垃圾邮件,而更宽松的过滤器可能会意外阻止合法邮件。正确的平衡取决于用例和每种错误类型的成本。

Link to this section精确率-召回率曲线的意义#

精确率-召回率曲线(PR 曲线)显示了精确率和召回率如何随着模型决策阈值的改变而变化。每个点代表了两者之间的一种权衡。PR 曲线对于不平衡数据集特别有用,在这种数据集中,某一类别的出现频率要低得多。

它还提供了比接收者操作特征 (ROC) 曲线更有意义的洞察,后者同样展示了模型在不同决策阈值下区分正负例的能力。一个既有高精确率又有高召回率的模型,其精确率-召回率曲线将保持在右上角附近,这通常是理想的状态。

Link to this section引入 F1-score:用于平衡的组合指标#

F1-score 提供了一个单一的值,捕捉了精确率和召回率之间的平衡。F1-score 的计算方式是精确率与召回率乘积的两倍,除以精确率与召回率之和。它在假正例和假负例都很重要时非常有用,并且在处理不平衡数据集或需要平衡看待模型性能时也很有帮助。

使用精确率和召回率计算 F1-score

图 4. 使用精确率和召回率计算 F1-score (来源)

Link to this section超越准确率、精确率和召回率#

虽然准确率、精确率和召回率是必不可少的,但其他指标根据模型类型和数据集特征提供了额外的见解。

以下是一些常用的指标,有助于评估性能的不同方面:

  • 特异度 (Specificity): 它衡量模型识别实际负例的程度。当避免假正例非常重要时,它很有用。
  • AUC AUC,即曲线下面积,给出了一个单一的分数,反映了模型区分不同类别的能力。
  • 对数损失 (Log loss): 对数损失用于衡量模型进行预测时的置信度,并对高置信度下的错误预测给予更多惩罚。此处,置信度指的是模型对其预测确信的程度。
  • 多标签评估: 在多标签任务中,指标会在各个标签上进行平均,以反映整体模型性能。

Link to this section在计算机视觉中应用准确率、精确率和召回率#

现在我们对准确率、精确率和召回率有了更清晰的理解,让我们来看看这些指标是如何在计算机视觉中应用的。

Ultralytics YOLO11 这样的计算机视觉模型支持诸如目标检测等任务,模型在此任务中识别图像中存在什么物体并使用边界框定位它们。每个预测都包括物体标签及其位置,这使得评估比简单检查标签是否正确更为复杂。

使用 Ultralytics YOLO11 进行目标检测的示例

图 5. 使用 Ultralytics YOLO11 进行目标检测的示例。(来源)

考虑一个零售应用,其中摄像头被用于自动跟踪货架上的产品。一个目标检测模型可能会识别出谷物盒、苏打水罐或瓶装水等物品,并标记它们的位置。

在这种情况下,精确率告诉我们检测到的物品中有多少是正确的。高精确率意味着系统避免了假正例,比如将阴影或背景物体标记为产品。召回率显示了模型成功检测到了货架上多少真实产品。高召回率意味着遗漏的物品更少,这对准确的库存统计至关重要。

准确率仍然可以提供正确性的一般衡量标准,但在这种设置中,漏掉几个产品或检测到本不存在的物品可能会对库存管理产生巨大影响。这就是为什么开发者会综合查看精确率、召回率和准确率,以确保系统在实际应用中既可靠又实用。

Link to this section准确率、精确率和召回率:关键要点#

准确率、精确率和召回率各自展示了机器学习模型性能的不同方面。仅依赖一个指标可能会产生误导。

混淆矩阵、精确率-召回率曲线和 F1-score 等工具和指标有助于揭示权衡,并指导改进 ML 模型的决策。通过为特定的 AI 解决方案选择正确的指标组合,你可以确保模型在实际应用中准确、可靠且有效。

探索我们不断壮大的社区!查看我们的 GitHub 仓库以了解更多关于 AI 的信息。准备好开始你的计算机视觉项目了吗?看看我们的许可选项。通过访问我们的解决方案页面,发现农业 AI机器人视觉 AI

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅