定义人工智能置信度分数。了解模型如何衡量预测的确定性、设置可靠性阈值以及区分置信度和准确度。
在人工智能(AI)和机器学习(ML)的语境中,置信度表示模型对其预测的评分,表明模型对特定输出的确定程度。对于物体检测或图像分类等任务,每个检测到的物体或分配的类标签都有一个置信度分数,通常从 0 到 1(或 0% 到 100% )不等。这个分数可以帮助用户衡量模型所做的单个预测的可靠性,例如 Ultralytics YOLO.分数越高,表明模型根据训练过程中学习到的模式做出的预测越可靠。了解可信度对于解释模型输出和根据人工智能预测做出明智决策至关重要,尤其是在人工智能汽车解决方案等对安全至关重要的应用中。
置信度分数通常来自神经网络 (NN) 的输出层。对于分类任务而言,这通常涉及对原始输出(对数)应用Softmax或Sigmoid等激活函数,为每个类别生成类似概率的值。在像YOLO 这样的物体检测模型中,置信度分数可能会将物体出现在提议的边界框中的概率(通常称为 "物体性分数")和该物体属于特定类别的概率(以物体出现为条件)结合起来。这是推理过程中用于评估检测有效性的关键输出结果。该分数是根据从COCO 等数据集学习到的模型权重计算得出的。
在实践中,并非所有模型的预测都同样有用或可靠。置信度极低的预测通常代表背景噪音或不确定的分类。为了过滤掉这些预测,通常会使用一个 "置信度阈值"。这是一个用户定义的值(如 0.5 或 50%);只有置信度高于该阈值的预测才被视为有效输出。设置适当的阈值至关重要,通常取决于具体的应用:
置信度阈值通常与非最大值抑制(NMS)等技术结合使用,通过删除同一对象的重叠边界框来完善最终的检测集。在使用Ultralytics 模型时,您可以通过命令行界面 (CLI)或Python API 轻松配置该阈值。寻找最佳阈值可能需要调整超参数。
信心分数是负责任地有效部署人工智能模型的基础:
重要的是,不要混淆单个预测的置信度得分和整体模型评估指标。虽然两者相关,但它们衡量的是不同方面的性能:
总之,置信度是评估单个人工智能预测确定性的重要输出结果,可以在实际应用中更好地进行筛选、优先排序和决策。它与评估模型整体性能的指标(如Ultralytics HUB 中跟踪的指标)互为补充,但又有所不同。