术语表

准确性

了解准确性在机器学习中的重要性、准确性的计算方法、不平衡数据集的局限性以及提高模型性能的方法。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

准确度是用于评估机器学习(ML)模型性能的最基本、最直观的指标之一,尤其是在人工智能(AI)计算机视觉(CV)的分类任务中。它表示人工智能模型做出的正确预测占预测总数的比例。虽然准确率易于理解和计算,但仅靠准确率有时会产生误导,尤其是在处理某些类型的数据集或特定问题要求时。

如何计算精确度

准确率的计算方法是将正确预测(包括真阳性和真阴性)的数量除以预测总数。例如,如果一个模型在 100 张图像中正确识别了 90 张,那么它的准确率就是 90%。这种简单性使其成为评估模型性能的常用起点。

人工智能和机器学习的重要性

准确度是对模型总体正确率的直接衡量。它被广泛应用于模型开发和模型训练的初始阶段,以获得对性能的总体感觉。高准确度通常是许多应用的首要目标,它表明模型能很好地泛化到新的、未见过的数据中。许多最先进的模型,如 Ultralytics YOLO等模型,在追求高准确率的同时,还兼顾了速度等其他因素。您可以查看YOLO11 与YOLOv8之类的比较,这些比较通常强调准确性基准。

准确性的局限性

尽管其直观性很强,但准确性有很大的局限性:

  • 不平衡数据集:在处理不平衡数据时,准确率可能不是一个很好的性能指标。例如,在检测一种罕见疾病(如发病率为 1%)时,一个总是预测 "无病 "的模型可以达到 99% 的准确率,但却无法识别出任何实际病例,因此毫无用处。这凸显了考虑潜在数据集偏差的重要性。
  • 忽略错误类型:准确性对所有错误一视同仁。然而,在现实世界的许多情况下,不同错误的代价是不同的。例如,将恶性肿瘤误诊为良性肿瘤(假阴性)往往比将良性肿瘤误诊为恶性肿瘤(假阳性)要严重得多。
  • 准确性悖论:在某些情况下,根据标准定义不太准确的模型实际上可能更有用。这就是所谓的 "准确性悖论"。

准确性与其他指标的区别

由于精确度的局限性,尤其是在数据不平衡或错误成本不同的情况下,人们通常会选择其他指标或与之并用:

  • 精确度:衡量实际正确的正面识别比例。当误报成本较高时(例如,垃圾邮件过滤器将重要邮件标记为垃圾邮件),高精度至关重要。
  • 召回(灵敏度):衡量正确识别的实际阳性比例。当假阴性的代价很高时(如漏诊),高召回率至关重要。
  • F1 评分:精确度和召回率的调和平均值,在两者之间取得平衡。当假阳性和假阴性都很重要时,它就很有用。
  • 平均精度 (mAP):物体检测的常用指标,它同时考虑了不同召回级别的分类精度和定位精度(IoU)。
  • 混乱矩阵:可视化分类算法性能的表格,显示真阳性、真阴性、假阳性和假阴性,有助于计算精确度、召回率和准确度。
  • ROC 曲线和 AUC:它们直观地显示了在不同阈值设置下真阳性率(召回率)和假阳性率之间的权衡。

了解了这些不同的YOLO 性能指标,就可以根据具体需求对模型性能进行更细致的评估。

真实世界的人工智能/移动语言应用

  1. 医学图像分析:使用YOLO11 进行肿瘤检测等任务中,在考虑整体准确性的同时,通常会优先考虑召回率(灵敏度)等指标,以尽量降低遗漏实际肿瘤(假阴性)的风险。医疗保健领域的人工智能解决方案必须仔细平衡这些指标。
  2. 自动驾驶汽车:对于人工智能汽车解决方案而言,物体检测模型需要高精度地识别行人、车辆和障碍物。然而,仅仅衡量总体准确性是不够的;mAP 等指标对于确保正确分类和精确定位(边界框预测)以保证安全至关重要。

提高模型精度

有几种技术可以帮助提高模型的准确性,但往往需要权衡其他指标或计算成本:

Model Training Tips等咨询资源可提供实用指导。Ultralytics HUB等平台允许用户训练模型,并轻松跟踪准确性和其他关键指标,通常使用TensorBoard 等工具实现可视化。通过斯坦福人工智能指数报告等资源或浏览Papers With Code上的数据集,可以跟踪该领域的进展。像 PyTorch(见官方网站)和 TensorFlow(见官方网站)等框架通常用于构建和训练这些模型。

总之,虽然精确度是评估人工智能模型性能的一个宝贵而直观的指标,但它很少应该被单独使用。考虑人工智能任务的具体目标和数据的性质,尤其是潜在的不平衡或不同的错误成本,对于选择最合适的评估指标(如精确度、召回率、F1-分数或 mAP)至关重要。利用可解释人工智能(XAI)技术还能提供超越单一指标值的更深入的见解。

阅读全部