深圳尤洛视觉
深圳
立即加入
词汇表

置信度

定义 AI 置信度评分。了解模型如何评估预测的确定性,设置可靠性阈值,以及区分置信度和准确性。

在机器学习中,置信度分数是分配给单个预测的数值,表示模型对预测正确的确定性。它以百分比或介于 0 和 1 之间的概率值表示,量化了模型对其自身单个实例输出的“信任度”。例如,在对象检测任务中,像Ultralytics YOLO11这样的模型可能会识别图像中的一辆汽车,并分配 0.95(或 95%)的置信度分数,表明它对其发现非常有把握。此分数是一个关键输出,可帮助用户在实际场景中过滤、优先排序和解释模型的结果。

置信度分数通常来自神经网络 (NN)最后一层的输出,通常是 softmax 或 sigmoid 函数。该值在实际应用中非常重要,在实际应用中,会设置一个置信度阈值来丢弃低于一定确定性水平的预测。通过调整此阈值,开发人员可以平衡捕获所有相关检测结果和最大限度地减少误报之间的权衡,这是模型部署中的一个关键考虑因素。

实际应用

置信度评分对于使AI系统更可靠和更具可操作性至关重要。它们允许系统评估不确定性并相应地触发不同的响应。

  • 自动驾驶车辆:自动驾驶汽车中,置信度评分对于安全至关重要。目标检测器可能会以 98% 的置信度识别出行人,这是一个明确的信号,表明车辆应减速或停止。相反,如果它仅以 30% 的置信度检测到物体,则系统可能会将其标记为不确定,并使用其他传感器来验证其性质,然后再采取行动。这有助于通过关注高确定性威胁来防止事故。有关此主题的更多详细信息,您可以阅读有关人工智能在自动驾驶汽车中的作用
  • 医学影像分析: 当人工智能模型分析医学扫描以寻找疾病迹象时,例如在医学影像中检测肿瘤,置信度评分非常宝贵。置信度为 99% 的检测结果可以立即标记以供放射科医生审查。置信度为 60% 的结果可能会被标记为“模棱两可”或“需要进一步审查”,从而确保不确定的病例会受到人工审查,而不会让专家被误报淹没。FDA 提供了关于医疗设备中 AI/ML 的指导

置信度与其他指标

务必不要将单个预测的置信度分数与整体模型评估指标混淆。虽然两者相关,但它们衡量的是性能的不同方面:

  • 准确性:衡量整个数据集中正确预测的总体百分比。它提供了模型性能的总体感知,但并不反映单个预测的确定性。一个模型可能有很高的准确率,但仍然会做出一些置信度较低的预测。
  • 精确度:表示实际正确的正预测比例。高精度意味着误报较少。置信度反映了模型对其预测的信心,可能与正确性一致,也可能不一致。
  • 召回(灵敏度):衡量模型正确识别的实际阳性实例的比例。召回率高意味着漏检较少。可信度与发现的实际阳性数量没有直接关系。
  • F1 评分:精确度和召回率的调和平均值,是平衡两者的单一指标。置信度仍然是预测级别的分数,而不是模型性能的综合衡量标准。
  • 平均精度 (mAP):物体检测中的常用指标,用于总结不同置信度阈值和类别的精度-召回曲线。虽然 mAP 计算涉及置信度阈值,但置信度分数本身适用于每个单独的检测。
  • 校准: 指的是置信度分数与正确性的实际概率的一致程度。 良好校准的模型的预测具有 80% 的置信度,应该在 80% 的时间内是正确的。 正如 关于模型校准的研究 中所讨论的,现代神经网络的置信度分数并不总是固有地良好校准。

总而言之,置信度是一个有价值的输出,用于评估个体 AI 预测的确定性,从而可以在实际应用中更好地进行过滤、优先级排序和决策。它补充了(但不同于)评估模型整体性能的指标,例如您可以使用 Ultralytics HUB 等工具跟踪和分析的指标。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板