Model Monitoring
探索 AI 中模型监控的重要性。学习跟踪数据漂移、性能指标,并使用 Ultralytics Platform 保持 Ultralytics YOLO26 的鲁棒性。
Model monitoring is the ongoing practice of tracking, analyzing, and evaluating the performance of Machine Learning (ML) models after they have been deployed into production. While traditional software typically operates deterministically—expecting the same output for a given input indefinitely—predictive models rely on statistical patterns that can evolve over time. As the real-world environment changes, the data fed into these models may shift, causing degradation in accuracy or reliability. Monitoring ensures that Artificial Intelligence (AI) systems continue to deliver value by identifying issues like data drift or concept drift before they negatively impact business outcomes or user experience.
Link to this section部署后监管的重要性#
在 Machine Learning Operations (MLOps) 生命周期中,部署并不是终点。在历史数据上训练的模型代表了世界在特定时刻的快照。随着时间的推移,季节性变化、经济转型或新的用户行为等外部因素可能会改变潜在的数据分布。这种现象被称为 data drift,可能导致“静默失败”,即模型在没有报错的情况下输出预测,但这些预测的质量却低于可接受的标准。
有效的监控可以提供对这些细微变化的可见性。通过使用 validation data 建立基准并将其与实时生产流进行比较,工程团队可以及早发现异常。这种主动的方法有助于及时进行 model retraining 或更新,从而确保 autonomous vehicles 或欺诈检测算法等系统保持安全和有效。
Link to this section模型监控中的关键指标#
为了保持健康的 ML 系统,从业者会跟踪通常分为三类的各种指标:
- 服务可靠性指标: 这些指标跟踪 inference engine 的运行健康状况。关键指标包括 inference latency(预测所需时间)和系统资源利用率,例如 GPU 内存使用情况。像 Prometheus 这样的工具通常用于抓取和存储这些系统级指标。
- 数据质量指标: 这些指标确保输入数据符合预期的模式和统计分布。例如,缺失值的突然激增或特征均值的偏移可能表明上游数据管道中断。像 Kolmogorov-Smirnov test 这样的统计测试有助于量化训练分布与生产分布之间的距离。
- 性能指标: 理想情况下,团队会监控 accuracy、precision 和 recall 等真实情况指标。然而,在生产环境中,真实标签通常会延迟或无法获得。在这种情况下,会使用预测 confidence 分数或输出分布的稳定性等代理指标来衡量健康状况。
Link to this section实际应用#
模型监控在各种自动化决策影响运营和安全的行业中至关重要:
- 制造业中的计算机视觉: 在 smart manufacturing 中,视觉检测模型用于检测装配线上的缺陷。随着时间的推移,相机镜头可能会积灰,或者工厂照明可能会发生变化,导致模型将非缺陷部件误分类为缺陷。监控正面检测率有助于识别这种偏移,从而促使使用 Ultralytics Platform 进行维护或重新校准。
- 金融欺诈检测: 银行使用 ML 来标记可疑交易。犯罪分子不断调整其策略以逃避检测,从而导致概念偏移。通过监控标记交易的比例并调查人工审核员的反馈,数据科学家可以快速更新模型以识别新的欺诈模式。
Link to this section监控与可观测性#
区分监控和 observability 很有帮助,因为它们起着相辅相成的作用。模型监控通常是反应性的,专注于“已知的未知数”,使用仪表板在特定指标突破阈值(例如准确率低于 90%)时向团队发出警报。可观测性则更深入地研究“未知的未知数”,提供细粒度的 logs 和跟踪,使工程师能够调试特定预测失败的原因,或模型为何会对特定人群表现出 bias in AI。
Link to this section示例:跟踪预测置信度#
监控计算机视觉模型健康状况的一种简单方法是跟踪其预测的平均置信度。置信度的显著下降可能表明模型遇到了其未经过训练处理的数据。
这是一个使用 YOLO26 从一批图像中提取置信度分数以用于监控目的的 Python 示例:
import numpy as np
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on a source (e.g., a video frame or image list)
results = model(["bus.jpg", "zidane.jpg"])
# Extract confidence scores for monitoring
for i, result in enumerate(results):
# Get the confidence scores for all detected objects
confidences = result.boxes.conf.cpu().numpy()
if len(confidences) > 0:
avg_conf = np.mean(confidences)
print(f"Image {i}: Average Detection Confidence: {avg_conf:.3f}")
else:
print(f"Image {i}: No objects detected.")定期记录这些统计数据,使团队能够使用 Grafana 或 Ultralytics Platform 中的监控功能来可视化随时间变化的趋势,从而确保模型在动态环境中保持稳健。






