术语表

信心

定义人工智能置信度分数。了解模型如何衡量预测的确定性、设置可靠性阈值以及区分置信度和准确度。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

在人工智能(AI)和机器学习(ML)的语境中,置信度表示模型对其预测的评分,表明模型对特定输出的确定程度。对于物体检测图像分类等任务,每个检测到的物体或分配的类标签都有一个置信度分数,通常从 0 到 1(或 0% 到 100% )不等。这个分数可以帮助用户衡量模型所做的单个预测的可靠性,例如 Ultralytics YOLO.分数越高,表明模型根据训练过程中学习到的模式做出的预测越可靠。了解可信度对于解释模型输出和根据人工智能预测做出明智决策至关重要,尤其是在人工智能汽车解决方案等对安全至关重要的应用中。

如何确定信心

置信度分数通常来自神经网络 (NN) 的输出层。对于分类任务而言,这通常涉及对原始输出(对数)应用SoftmaxSigmoid激活函数,为每个类别生成类似概率的值。在像YOLO 这样的物体检测模型中,置信度分数可能会将物体出现在提议的边界框中的概率(通常称为 "物体性分数")和该物体属于特定类别的概率(以物体出现为条件)结合起来。这是推理过程中用于评估检测有效性的关键输出结果。该分数是根据从COCO 等数据集学习到的模型权重计算得出的。

信心阈值

在实践中,并非所有模型的预测都同样有用或可靠。置信度极低的预测通常代表背景噪音或不确定的分类。为了过滤掉这些预测,通常会使用一个 "置信度阈值"。这是一个用户定义的值(如 0.5 或 50%);只有置信度高于该阈值的预测才被视为有效输出。设置适当的阈值至关重要,通常取决于具体的应用:

  • 高召回率场景:在用于筛查的医学图像分析等应用中,最初可能会使用较低的阈值,以尽量减少遗漏潜在发现(高召回率)的机会,即使这意味着需要人工审核的误报率更高。医疗保健领域的人工智能通常需要仔细调整阈值。
  • 高精度场景:在自动驾驶或人工智能制造的质量控制等应用中,更倾向于采用较高的阈值,以确保仅根据高度确定的预测(高精度)采取行动,从而降低出错风险。人工智能安全研究强调稳健决策。

置信度阈值通常与非最大值抑制(NMS)等技术结合使用,通过删除同一对象的重叠边界框来完善最终的检测集。在使用Ultralytics 模型时,您可以通过命令行界面 (CLI)Python API 轻松配置该阈值。寻找最佳阈值可能需要调整超参数

实际应用

信心分数是负责任地有效部署人工智能模型的基础:

  1. 医疗诊断支持:在分析医疗扫描(如 X 射线或核磁共振成像)以发现潜在异常(如肿瘤检测)的系统中,置信度得分有助于确定病例的优先级。置信度低的预测可能表示有一个模棱两可的发现,需要放射科医生进行更仔细的检查,而置信度高的预测则可以简化审查过程。放射学人工智能研究经常讨论置信度。
  2. 自主系统:对于自动驾驶汽车机器人而言,置信度对安全至关重要。对行人或其他车辆的检测(了解 Waymo 的做法)必须达到较高的置信度阈值,系统才会启动刹车或转向等操作。低置信度检测可能会被忽略或触发不那么重要的警报。这确保了系统只有在确定的情况下才会果断采取行动。

信心与其他指标

重要的是,不要混淆单个预测的置信度得分和整体模型评估指标。虽然两者相关,但它们衡量的是不同方面的性能:

  • 准确性:衡量整个数据集中正确预测的总体百分比。它提供了模型性能的总体感知,但并不反映单个预测的确定性。一个模型可能有很高的准确率,但仍然会做出一些置信度较低的预测。
  • 精确度:表示实际正确的阳性预测比例(真阳性/(真阳性 + 假阳性))。高精度意味着误报较少。置信度反映了模型对其预测的信心,可能与正确性一致,也可能不一致。
  • 召回(灵敏度):衡量模型正确识别的实际阳性实例的比例(真阳性/(真阳性 + 假阴性))。召回率高意味着漏检较少。可信度与发现的实际阳性数量没有直接关系。
  • F1 评分:精确度和召回率的调和平均值,是平衡两者的单一指标。置信度仍然是预测级别的分数。
  • 平均精度 (mAP):物体检测中的常用指标,用于总结不同置信度阈值和类别的精度-召回曲线。虽然 mAP 计算涉及置信度阈值,但置信度分数本身适用于每个单独的检测。
  • 校准:指置信度得分与实际正确概率的吻合程度。一个校准良好的模型,其置信度为 80% 的预测应该在大约 80% 的情况下是正确的。模型的置信度得分本身并不总是校准良好的(参见有关校准的研究)。

总之,置信度是评估单个人工智能预测确定性的重要输出结果,可以在实际应用中更好地进行筛选、优先排序和决策。它与评估模型整体性能的指标(如Ultralytics HUB 中跟踪的指标)互为补充,但又有所不同。

阅读全部