信心
定义人工智能置信度分数。了解模型如何衡量预测的确定性、设置可靠性阈值以及区分置信度和准确度。
在机器学习中,置信度是分配给单个预测的数值,表示模型对预测正确性的确定性。用百分比或介于 0 和 1 之间的概率值来表示,它量化了模型对自己在单个实例中输出结果的 "信心"。例如,在物体检测任务中,像Ultralytics YOLO11这样的模型可能会在图像中识别出一辆汽车,并给出 0.95(或 95%)的置信度分数,这表明它对自己的发现非常有把握。这个分数是一个重要的输出结果,可以帮助用户过滤、优先排序和解释模型在实际场景中的结果。
置信度通常来自神经网络 (NN) 最后一层的输出,通常是一个softmax或 sigmoid 函数。该值在实际应用中非常重要,在实际应用中,置信度阈值被设置为放弃低于一定确定性水平的预测。通过调整该阈值,开发人员可以在捕捉所有相关检测结果和尽量减少误报之间取得平衡,这也是模型部署中的一个关键考虑因素。
实际应用
信心分数对于提高人工智能系统的可靠性和可操作性至关重要。它们允许系统衡量不确定性,并相应地触发不同的反应。
- 自动驾驶汽车:在自动驾驶汽车中,置信度对安全至关重要。物体探测器可能会以 98% 的置信度识别出行人,这是车辆减速或停车的明确信号。相反,如果检测到的物体只有 30% 的可信度,系统可能会将其标记为不确定物体,并在采取行动前使用其他传感器验证其性质。这有助于通过关注高确定性威胁来防止事故发生。有关这一主题的更多详情,请阅读人工智能在自动驾驶汽车中的作用。
- 医学图像分析:当人工智能模型分析医学扫描中的疾病迹象时,例如在医学影像中检测肿瘤,置信度分数就显得非常重要。置信度为 99% 的检测结果可立即标记出来,供放射科医生审查。置信度为 60% 的检测结果可能会被标记为 "模棱两可 "或 "需要进一步审查",从而确保不确定的病例能够得到人工审查,而不会因为误报而让专家不知所措。美国食品和药物管理局(FDA)为医疗设备中的人工智能/移动医疗提供了指导。
信心与其他指标
重要的是,不要混淆单个预测的置信度得分和整体模型评估指标。虽然两者相关,但它们衡量的是不同方面的性能:
- 准确率衡量整个数据集中正确预测的总体百分比。它提供了模型性能的总体感知,但并不反映单个预测的确定性。一个模型可能具有很高的准确率,但仍会做出一些置信度较低的预测。
- 精确度:表示实际正确的正预测比例。高精度意味着误报较少。置信度反映了模型对其预测的信心,可能与正确性一致,也可能不一致。
- 召回率(灵敏度):衡量模型正确识别的实际阳性实例的比例。召回率高意味着漏检较少。可信度与实际发现的阳性实例数量没有直接关系。
- F1 分数:精确度和召回率的调和平均值,提供了平衡两者的单一指标。置信度仍然是预测级别的分数,而不是模型性能的综合衡量标准。
- 平均精度 (mAP):物体检测中的常用指标,用于总结不同置信度阈值和类别的精度-召回曲线。虽然 mAP 计算涉及置信度阈值,但置信度分数本身适用于每个单独的检测。
- 校准:指置信度得分与实际正确概率的吻合程度。一个校准良好的模型,其置信度为 80% 的预测应该有 80% 的时间是正确的。正如有关模型校准的研究中所讨论的那样,现代神经网络的置信度得分本身并不总是校准良好的。
总之,置信度是评估单个人工智能预测确定性的一种有价值的输出,可以在实际应用中更好地进行筛选、优先排序和决策。它补充了评估模型整体性能的指标,但又有别于这些指标,例如您可以使用Ultralytics HUB 等工具跟踪和分析的指标。