术语表

曲线下面积 (AUC)

了解曲线下面积 (AUC) 在 ML 模型评估中的重要性。了解其优势、ROC 曲线见解和实际应用。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

曲线下面积(AUC)是机器学习(ML)中主要用于评估二元分类模型的基本性能指标。它量化了模型在所有可能的分类阈值下区分正类和负类的能力。AUC 分数范围在 0 到 1 之间,数值越高表示模型性能越好。得分 0.5 的模型并不比随机机会好,而一个完美的模型能完美地区分类别,其 AUC 值为 1.0。该指标提供了分类性能的单一综合衡量标准,不受任何特定阈值选择的影响。

了解 ROC 曲线

AUC 值直接来自接收者工作特征曲线(ROC)。ROC 曲线是一种图形,用于说明二元分类器的诊断能力随其判别阈值的变化而变化。它将不同阈值设置下的真阳性率(TPR)(也称为灵敏度或召回率)与假阳性率(FPR)(x 轴)相对比,并绘制在 y 轴上。AUC 表示 ROC 曲线下方的整个二维区域。有关ROC 曲线的全面概述,请查阅维基百科

AUC 的解释

AUC 被解释为一个模型将随机选择的正向实例排序高于随机选择的负向实例的概率。因此,它是对模型整体判别能力的衡量。与准确度等指标相比,AUC 的主要优势之一是对类别不平衡相对不敏感。在一个类的数量远远超过另一个类的数据集中(这在实际问题中很常见),准确率可能会产生误导,而 AUC 则能更可靠地衡量模型区分类的能力。接近 1 的 AUC 表示模型具有出色的分离能力,而接近 0.5 的 AUC 则表示模型的区分能力较差,类似于随机猜测。理解这些解释对于有效评估模型至关重要。

人工智能和 ML 的应用

AUC 广泛应用于对二元分类任务至关重要的各个领域。下面是两个例子:

  1. 医疗诊断:医学图像分析中,通常会训练模型来检测疾病(如肿瘤、糖尿病视网膜病变)的存在与否。AUC 用于评估这些医疗人工智能模型在不同诊断阈值下根据图像区分健康和疾病患者的能力。AUC 在医学研究中的重要性有目共睹
  2. 欺诈检测:金融机构使用 ML 模型识别欺诈交易。这是一个典型的二元分类问题(欺诈与非欺诈)。AUC 可帮助评估模型在标记潜在欺诈活动方面的整体有效性,同时将误报率降至最低,这对金融领域的人工智能至关重要。

许多深度学习(DL)框架和库,包括 PyTorchTensorFlow用于构建这些分类器。Scikit-learn 等工具提供了计算 ROC AUC 分数的便捷功能,简化了评估过程。Ultralytics HUB等平台也有助于训练和评估与此类指标相关的模型。

AUC 与其他指标的比较

虽然 AUC 是一个有价值的指标,但重要的是要了解它与计算机视觉 (CV)和 ML 中使用的其他评估指标有何不同:

  • AUC 与准确率: 准确度衡量预测的整体正确性,但在不平衡数据集上可能会产生误导。AUC 提供了一种独立于阈值的可分离度量,因此在这种情况下更为可靠。
  • AUC 与精度-召回对比:对于不平衡的数据集来说,正类是罕见的,也是主要的关注点(例如,检测罕见疾病),精度-召回曲线及其相应的面积(AUC-PR)可能比 ROC AUC 更有参考价值。精确度召回率等指标特别关注阳性类的性能。F1 分数也兼顾了精确度和召回率。
  • AUC 与 mAP/IoU:AUC 主要用于二元分类任务。对于物体检测任务,常见的模型有 Ultralytics YOLO等模型常见的物体检测任务,平均精度 (mAP)交集大于联合 (IoU)是标准指标。这些指标同时评估使用边界框检测到的对象的分类准确度和定位精度。您可以在此了解有关YOLO 性能指标的更多信息。对不同模型进行比较时,通常需要对这些特定指标进行分析,如Ultralytics 模型比较所示。

选择正确的指标取决于具体问题、数据集特征(如类平衡)以及人工智能项目的目标。AUC 由于其稳健性和可解释性,仍然是评估二元分类性能的基石。

阅读全部