Observability
探索 AI 和 ML 中可观测性的重要性。学习如何调试复杂系统、监控 Ultralytics YOLO26 的性能并获得深刻的模型洞察。
可观测性是指仅根据外部输出就能了解复杂系统内部状态的能力。在飞速发展的 人工智能 (AI) 和 机器学习 (ML) 领域,可观测性不仅仅是简单的状态检查,它还提供了关于模型为何以某种方式表现的深入洞察。随着现代 深度学习 (DL) 架构(例如最先进的 YOLO26)变得日益复杂,它们往往会表现得像“黑盒”。可观测性工具为这些系统开启了一扇透明的窗口,让工程团队能够调试意外行为,追踪错误的根本原因,并确保生产环境中的可靠性。
Link to this section可观测性与监控#
虽然这两个词经常互换使用,但可观测性和 模型监控 在 MLOps 生命周期中有着不同但互补的用途。
- 模型监控 是被动的,专注于“已知的未知”。它涉及根据既定阈值跟踪预定义的指标,如 推理延迟、CPU 使用率或错误率。监控回答的是:“系统健康吗?”这一问题。
- 可观测性 是主动的,致力于解决“未知的未知”。它提供了调查在 训练数据 准备期间未预料到的新问题所需的细粒度数据——包括日志、追踪和高基数事件。正如 Google SRE Book 中所述,一个具备可观测性的系统使你能够在无需发布新代码的情况下理解新行为。它回答的是:“为什么系统会这样运行?”这一问题。
Link to this section可观测性的三大支柱#
要在 计算机视觉 (CV) 流水线中实现真正的可观测性,系统通常依赖于三种主要的遥测数据:
-
日志: 离散事件的时间戳记录,且不可篡改。在检测流水线中,日志可能会捕获输入图像的分辨率或运行期间使用的特定 超参数调优 配置。结构化日志(通常为 JSON 格式)支持复杂的查询和分析。
-
指标: 随时间测量的聚合数值数据,例如平均 精度、内存消耗或 GPU 利用率。像 Prometheus 和 Grafana 这样的工具是存储这些时间序列数据以实现趋势可视化的标准方案。
-
追踪: 追踪功能可记录请求在各种微服务中流动时的生命周期。对于分布式 AI 应用,OpenTelemetry 等标准有助于映射请求路径,突出显示 推理引擎 或网络延迟中的瓶颈。像 Jaeger 这样的专用工具有助于将这些分布式事务可视化。
Link to this section在 Python 中实现可观测性#
你可以通过使用回调函数来记录特定的内部状态,从而增强训练流水线的可观测性。以下示例演示了如何向 YOLO26 训练会话添加自定义回调,以实时监控性能指标。
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Define a custom callback for observability
def on_train_epoch_end(trainer):
# Access and print specific metrics at the end of each epoch
map50 = trainer.metrics.get("metrics/mAP50(B)", 0)
print(f"Observability Log - Epoch {trainer.epoch + 1}: mAP50 is {map50:.4f}")
# Register the callback and start training
model.add_callback("on_train_epoch_end", on_train_epoch_end)
model.train(data="coco8.yaml", epochs=3)Link to this section实际应用#
对于在动态环境中部署高性能模型而言,可观测性至关重要,因为在这些环境中,测试数据 可能无法完全匹配现实世界的条件。
- 自动驾驶: 在 自动驾驶车辆 的开发过程中,可观测性允许工程师在解除接管事件期间重构系统的确切状态。通过将 目标检测 输出与传感器日志和控制命令相关联,团队可以确定制动错误是由传感器噪声、模型预测故障还是规划模块中的逻辑错误引起的。
- 医疗诊断: 在 医疗 AI 领域,确保性能一致性对患者安全至关重要。如果模型在应用于新型 MRI 扫描仪的图像时性能下降,可观测性工具可以检测到 数据偏移。追踪可以揭示该问题是否源于图像 数据预处理 的变化或输入分布的偏移,从而实现快速修复,且不会损害 AI 安全性。
Link to this section与现代工具的集成#
现代工作流通常将可观测性直接集成到训练平台中。Ultralytics Platform 的用户得益于损失曲线、系统性能和数据集分析的内置可视化功能。此外,通过与 TensorBoard 和 MLflow 等工具的标准集成,数据科学家能够对整个模型生命周期保持严谨的实验跟踪和可观测性。






