敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

衡量人工智能性能以评估您的创新成果的影响

Abirami Vina

5 分钟阅读

2024年8月22日

您可以使用正确的 KPI 和性能指标来监控您的 AI 创新是否成功。了解如何跟踪和优化 AI 应用程序的影响。

我们之前探讨过人工智能如何在医疗保健制造业旅游业等不同行业中使用。我们还研究了人工智能如何改善日常工作任务,并讨论了领先的人工智能商业理念。所有这些讨论都不可避免地引向同一个关键问题:我们如何衡量这些人工智能实施的成功与否?这是一个重要的问题,因为仅仅部署人工智能解决方案是不够的。确保这些解决方案真正带来成果才是它们具有变革意义的原因。 

我们可以衡量 AI 性能指标,以确定 AI 模型在提高流程效率、激发创新或解决问题方面是否真正有效。通过关注正确的关键绩效指标 (KPI),我们可以了解 AI 解决方案的运行情况以及可能需要改进的地方。

在本文中,我们将了解如何使用最相关的 KPI 来衡量 AI 实施的成功程度。我们将介绍业务 KPI 和 AI 性能 KPI 之间的差异,回顾关键指标(如精确率和召回率),并帮助您为特定的 AI 解决方案选择最佳 KPI。

人工智能业务 KPI 和人工智能性能 KPI 之间的区别

__wf_reserved_inherit
图 1. 比较 AI 业务 KPI 和 AI 性能 KPI。

当您想到KPI时,很自然地会认为它们都与投资回报率(ROI)、成本节约或产生的收入等业务指标有关——尤其是在谈论企业AI时。这些AI业务KPI衡量AI如何影响公司的整体成功,并与更广泛的业务目标保持一致。 

然而,AI 性能 KPI 侧重于 AI 系统本身的运行状况,使用诸如准确率、精确率和召回率之类的指标。 我们将在下面详细介绍这些指标,但从本质上讲,虽然业务 KPI 展示了 AI 的财务和战略优势,但性能 KPI 确保 AI 模型有效地完成其工作。

某些指标实际上可以同时服务于这两个目的。例如,效率提升,如完成任务所需的时间或资源减少,既可以是性能 KPI(显示人工智能解决方案的运行状况),也可以是业务 KPI(衡量成本节约和生产力提高)。客户满意度是另一个交叉指标。它既可以反映人工智能驱动的客户服务工具在技术性能方面的成功,也可以反映其对整体业务目标的影响。

理解关键的 AI 性能指标

有一些常用的指标来衡量 AI 模型的性能。首先,我们将了解它们的定义以及如何计算它们。然后,我们将了解如何监控这些指标。

精确率

精确率是一项衡量 AI 模型识别真阳性的准确程度的指标(模型正确识别对象或条件与预期一致的实例)。 例如,在面部识别系统中,当系统正确识别并识别出经过检测训练的人脸时,就会出现真阳性。 

要计算精确率,首先计算真阳性的数量。然后,您可以将其除以模型标记为阳性的项目总数。该总数包括正确的识别和错误(称为假阳性)。从本质上讲,精确率告诉您模型在声称已识别出某些内容时,正确的频率。

__wf_reserved_inherit
图 2. 理解精确率。

在假阳性的后果可能代价高昂或具有破坏性的情况下,这一点尤其重要。例如,在自动化制造中,高精度率表明系统可以更准确地标记出有缺陷的产品,并防止不必要地丢弃或返工好的产品。另一个很好的例子是安全监控。高精度有助于最大限度地减少误报,并将注意力集中在需要安全响应的真正威胁上。

召回率

召回率有助于衡量 AI 模型识别数据集内所有相关实例(或真阳性)的能力。简而言之,它表示 AI 系统能够多好地捕获其设计用于检测的条件或对象的所有实际案例。召回率可以通过将正确检测的数量除以应该检测到的阳性案例总数来计算(包括模型正确识别的案例和模型错过的案例)。

考虑一个用于癌症检测的AI医疗影像系统。在此背景下,召回率反映了系统正确识别的实际癌症病例的百分比。高召回率在这种情况下至关重要,因为漏诊癌症可能会对患者护理造成严重后果。

精确率与召回率

评估 AI 模型的性能时,精确率和召回率就像一枚硬币的两面,通常需要权衡。 挑战在于,提高一个指标通常会以牺牲另一个指标为代价。 

假设您追求更高的精度。该模型可能会变得更具选择性,并且只能识别它非常有把握的阳性结果。另一方面,如果您的目标是提高召回率,该模型可能会识别出更多的阳性结果,但这可能包括更多的假阳性,最终会降低精度。 

关键在于根据应用程序的特定需求找到精度和召回率之间的适当平衡。一个有用的工具是精确率-召回率曲线,该曲线显示了在不同阈值下两个指标之间的关系。通过分析该曲线,您可以确定模型在特定用例中表现最佳的最佳点。了解这种权衡有助于微调AI模型,使其针对其预期的用例实现最佳性能。

__wf_reserved_inherit
图 3. 精度-召回率曲线示例。

平均精度均值 (mAP)

平均精度均值 (mAP) 是一种用于评估 AI 模型在目标检测等任务中性能的指标,在这些任务中,模型需要识别和分类图像中的多个对象。mAP 为您提供一个单一的分数,显示模型在经过训练以识别的所有不同类别中的表现如何。让我们看看它是如何计算的。

精确率-召回率曲线下的面积表示该类别的平均精度(AP)。AP衡量模型在不同置信度水平下对特定类别进行预测的准确程度,同时考虑了精确率和召回率(置信度水平指的是模型对其预测的确定程度)。一旦计算出每个类别的AP,则通过对所有类别的这些AP值进行平均来确定mAP。

__wf_reserved_inherit
图 4. 各类别的平均精度。

mAP 在自动驾驶等应用中非常有用,在这些应用中,需要同时检测行人、车辆和交通标志等多个物体。高 mAP 分数意味着该模型在所有类别中始终表现良好,使其在各种场景中都可靠且准确。

轻松计算性能指标

计算关键 AI 性能指标的公式和方法可能看起来令人生畏。但是,像 Ultralytics 软件包 这样的工具可以使其变得简单快捷。无论您是在进行目标检测分割还是分类任务,Ultralytics 都能提供必要的实用程序来快速计算重要指标,例如精确率、召回率和平均精度均值 (mAP)。

要开始使用Ultralytics计算性能指标,您可以安装Ultralytics软件包,如下所示。

在此示例中,我们将加载一个预训练的 YOLOv8 模型,并使用它来验证性能指标,但您可以加载 Ultralytics 提供的任何受支持的模型。以下是具体操作方法:

加载模型后,您可以对数据集执行验证。以下代码段将帮助您计算各种性能指标,包括精确率、召回率和 mAP:

使用 Ultralytics 等工具可以更轻松地计算性能指标,因此您可以花更多时间改进模型,而减少对评估过程细节的担忧。

AI 部署后如何衡量其性能?

在开发您的 AI 模型时,很容易在受控环境中测试其性能。但是,一旦部署了模型,事情可能会变得更加复杂。幸运的是,有一些工具和最佳实践可以帮助您在部署后监控您的 AI 解决方案。 

Prometheus、Grafana 和 Evidently AI 等工具旨在持续跟踪您的模型性能。它们可以提供实时洞察、检测异常情况,并在出现任何潜在问题时向您发出警报。这些工具超越了传统的监控,提供了自动化的、可扩展的解决方案,以适应生产中 AI 模型的动态特性。

要衡量 AI 模型部署后的成功程度,请遵循以下最佳实践:

  • 设置清晰的性能指标: 确定诸如准确率、精确率和响应时间之类的关键指标,以定期检查模型的运行状况。
  • 定期检查数据漂移:密切关注模型正在处理的数据的变化,因为如果管理不当,这会影响其预测。
  • 进行 A/B 测试: 使用 A/B 测试 来比较当前模型与新版本或调整的性能。 这将允许您定量评估模型行为的改进或退化。
  • 记录和审计性能:保留性能指标和对AI系统所做更改的详细日志。这对于审计、合规性以及随着时间的推移改进模型的架构至关重要。

选择最佳 AI KPI 仅仅是开始

成功部署和管理 AI 解决方案取决于选择正确的 KPI 并保持其更新。总的来说,选择能够突出 AI 解决方案在技术上和业务影响方面表现的指标至关重要。随着技术进步或业务战略转变等情况的变化,重要的是重新审视和调整这些 KPI。 

通过保持您的绩效评估的动态性,您可以保持 AI 系统的相关性和有效性。通过密切关注这些指标,您将获得有价值的见解,从而帮助改进您的运营。积极主动的方法可确保您的 AI 工作真正有价值,并有助于推动您的业务向前发展!

加入我们的社区,与我们一起创新!探索我们的GitHub仓库,了解我们的人工智能进展。了解我们如何通过开创性的人工智能技术重塑制造业医疗保健等行业。🚀

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板