定义 AI 置信度评分。了解模型如何评估预测的确定性,设置可靠性阈值,以及区分置信度和准确性。
在人工智能与机器学习领域,置信度评分是衡量模型对特定预测结果确定程度的指标。该值通常在0到1之间(或0%到100%),代表算法输出与真实结果吻合的估计概率。例如在目标检测任务中,若系统 将图像某区域识别为"自行车"且置信度为0.92,则表明该分类正确的估计概率为92%。这些分数源自神经网络的最终层,通常需经过激活函数处理——多类分类采用Softmax函数,二元决策则使用Sigmoid函数。
置信度评分是推理引擎工作流的基础组件,作为过滤器用于区分高质量预测与背景噪声。这种称为阈值处理的过滤过程,使开发者能够调整应用程序的敏感度。通过设定最低置信度阈值,可管理关键的精度-召回率权衡关系。 较低的阈值虽能detect 目标,却会增加误报风险;而较高的阈值虽能提升精确度,却可能遗漏细微实例。
Ultralytics 先进架构中,置信度评分对后处理技术(如非最大抑制(NMS))至关重要。NMS 这些评分移除显著重叠的冗余边界框,仅保留概率最高的检测结果。此步骤确保最终输出数据干净整洁,可直接用于物体计数或追踪等下游任务。
以下Python 演示了如何使用
ultralytics 包装
from ultralytics import YOLO
# Load the latest YOLO26n model
model = YOLO("yolo26n.pt")
# Run inference with a confidence threshold of 0.5 (50%)
# Only detections with a score above this value are returned
results = model.predict("https://ultralytics.com/images/bus.jpg", conf=0.5)
# Inspect the confidence scores of the detected objects
for box in results[0].boxes:
print(f"Class: {box.cls}, Confidence: {box.conf.item():.2f}")
置信度评分在计算机视觉(CV)应用的各行各业中都提供了不可或缺的可解释性层级。它们能帮助自动化系统判断何时应自主运行,何时需触发警报以供人工审核。
区分置信度与模型评估中使用的其他统计指标至关重要。
若模型对有效目标持续输出低置信度,通常表明训练数据与部署环境存在差异。 缓解此问题的策略包括: 数据增强技术,通过改变光照、旋转角度和添加噪声来人工扩展数据集。此外Ultralytics 实现主动学习管道,开发者可轻松识别低置信度样本,对其进行标注并重新训练模型。这种迭代循环对于构建能够在动态真实环境中可靠运行的强大AI智能体至关重要。