Ultralytics 平台

在 Ultralytics Platform 上监控已部署的计算机视觉模型

了解如何使用 Ultralytics Platform 监控生产环境中的计算机视觉模型。追踪指标、检测问题并提高可靠性。

ABAbirami Vina5 min readApril 17, 2026

测试用于分析图像和视频的计算机视觉模型与在生产环境中运行它们并不总是等同的。在开发过程中，此类模型或算法是在干净、准备充分的数据集上进行测试的，条件是受控且可预测的。

一旦部署，情况会变得更加动态。模型会面临真实的流量，请求量可能会波动，响应时间可能会改变，偶尔也会发生故障。

在此阶段，重点转移到系统是否运行可靠，以及端点在不断变化的条件下是否保持可用、响应迅速和稳定。

这就是监控至关重要的原因。它通过请求量、延迟、错误率和整体系统健康状况等指标，清晰地呈现已部署端点在生产环境中的行为。

为了简化这一过程，拥有合适的工具与模型本身同样重要。最近，Ultralytics 推出了 Ultralytics Platform，这是我们全新的端到端环境，汇集了完整的计算机视觉工作流程，从数据和训练到部署和监控。

具有监控功能的 Ultralytics Platform 部署仪表板

图 1. Ultralytics Platform 的部署仪表板及监控功能 (来源)

随着监控直接集成到此工作流程中，用户可以跟踪端点健康状况、检查请求行为并维护可靠的系统，而无需依赖单独的工具。在本文中，我们将探讨如何使用 Ultralytics Platform 来监控已部署的模型端点并保持生产系统平稳运行。让我们开始吧！

Link to this sectionAI 模型监控概述#

在 AI 模型生命周期中，监控是指观察已部署系统在模型上线并处理实际请求后的行为。虽然训练和验证展示了机器学习模型 (ML model) 在准备好的数据集上的表现，但监控侧重于已部署的端点在生产环境中的运行情况。

监控的一个关键部分是跟踪反映可靠性和响应能力的系统级指标。延迟和正常运行时间等指标有助于表明系统处理传入请求的效果如何。延迟衡量处理请求并返回响应所需的时间，而正常运行时间则突出显示端点保持可用的持续性。

另一个关键方面是可观察性，它提供了对请求处理方式的可见性。每次将输入（例如图像或视频帧）发送到已部署的模型时，它都会作为推理请求进行处理。

日志会捕获这些请求以及时间戳、响应时间和状态代码等详细信息。这些日志使跟踪请求、调试问题和在故障发生时进行调查变得更加容易。它们对于识别重复错误、响应缓慢或意外的系统行为等模式特别有用。

通过结合指标和日志，监控帮助用户了解他们的系统在生产中的运行方式，并在问题出现时迅速做出反应。

Link to this section模型性能指标与系统指标的对比#

在深入探讨生产监控之前，让我们讨论一下模型性能指标和系统指标之间的区别。

通常，模型监控与评估指标相关联，也称为模型指标，例如准确率、精确率、召回率和 mAP（平均精度均值）。这些指标用于描述模型行为并评估模型预测的质量，通常与生产数据或输入数据相关。它们对于识别新数据中的边缘情况或异常值特别有用。

然而，这与在生产中监控已部署的系统是不同的。在这种情况下，监控侧重于系统运行方式，而不是直接评估模型预测。

部署监控不依赖模型指标，而是依赖系统级信号，例如请求量、延迟、错误率和正常运行时间。这些指标提供了对端点如何处理输入数据、响应的一致性以及在生产环境中运行情况的可见性。

Link to this section模型监控在计算机视觉项目中的作用#

接下来，让我们看一个现实世界的例子，它突显了计算机视觉部署中对监控系统的需求。

考虑一种使用姿态估计（一种用于识别和分析人体运动的计算机视觉任务）来监控建筑工人安全合规性的视觉解决方案。在最初部署模型时，这样的系统在视野清晰和标准场景等受控条件下可能表现良好。

然而，真实的建筑工地引入了额外的复杂性。请求量全天可能会波动，网络条件可能不稳定，多个摄像头或端点可能同时发送数据。如果系统没有得到适当监控，这些因素可能导致响应变慢或偶尔发生故障。

用于监控施工现场工作人员的姿态估计

图 2. 在建筑工地使用姿态估计监控工人 (来源)

在这样的生产环境中，了解系统运行的可靠性变得很重要。监控提供了对端点是否可用、对传入请求的响应速度以及随着时间推移处理流量的一致性的可见性。

例如，延迟的增加可能指向负载过高或资源限制，而错误率的上升可能表明请求处理或系统稳定性存在问题。日志通过显示单个请求的处理方式和故障发生的位置增加了更多背景信息。

通过跟踪这些信号，AI 爱好者和数据科学家可以及早发现问题，更有效地进行故障排除，并确保他们的系统随着现实条件的变化继续可靠地运行。

Link to this section使用 Ultralytics Platform 监控已部署的视觉模型#

在许多深度学习工作流程中，监控通常使用单独的日志、指标和系统健康工具来处理。这种碎片化的设置可能导致难以清楚地了解已部署端点在生产中的运行情况，并增加了管理部署的复杂性。

Ultralytics Platform 通过将监控直接引入统一环境简化了这一点，该环境涵盖了完整的计算机视觉工作流程，从数据摄取和标注到训练、部署和监控。

通过这种集成设置，用户可以跟踪已部署的端点如何处理真实流量，而无需设置外部日志系统或额外的仪表板。一切都在一个地方提供，这使得观察系统行为并随着时间的推移维护可靠的部署变得更加容易。

可以直接从部署 (Deploy) 选项卡访问监控功能。用户可以从单个仪表板跟踪关键指标、分析请求级行为并可视化趋势。这些内置的可视化效果使人们更容易理解解决方案的性能，而无需在不同工具之间切换。

通过将监控、部署和模型管理整合到更广泛的工作流程中，该平台降低了复杂性。这使得专注于管理部署、优化系统性能和保持可靠性变得更加顺畅。

Link to this sectionUltralytics Platform 的内置监控功能#

在实际部署中，监控取决于对系统随着时间推移发生变化时的运行情况是否有清晰的可见性。它不仅仅是跟踪几个指标，还涉及了解已部署的端点在不同环境中的行为，并有效管理多个部署。

受视觉 AI 社区对常见计算机视觉挑战的反馈启发，Ultralytics Platform 包含多项功能，使监控更加实用和可扩展。

以下是其中一些关键功能的概述：

全局部署可见性： 部署页面包含一个交互式世界地图，显示部署区域，并为活动和正在进行中的端点提供可视化指示器，允许用户监控地理分布和区域活动。
灵活的仪表板视图： 部署仪表板提供多种视图模式，包括卡片视图、紧凑网格和带有可排序列（如名称、区域、状态和请求）的表格视图，支持结构化监控和比较。
监控多个端点： 仪表板使用概览卡片和部署列表聚合所有部署的监控数据。
数据保留策略： 监控数据保留特定期限，指标可保留 30 天，日志可保留 7 天，支持近期性能分析和调试工作流程。
外部监控支持： 可以使用 Datadog、New Relic 和正常运行时间监控服务等外部工具监控部署端点，或通过 API 端点进行自定义监控和健康检查。

接下来，我们将更详细地介绍其中一些功能，并了解如何使用它们来监控生产中已部署的端点。

Link to this section如何使用 Ultralytics Platform 跟踪关键性能指标#

模型部署后，监控首先从跟踪关键系统指标开始。虽然准确率和召回率等指标在开发期间很有用，但生产监控侧重于响应时间和错误率等系统级信号，这些信号提供了关于端点如何可靠地处理真实流量的可衡量见解。

Ultralytics Platform 提供了一个中心化仪表板，可以清晰地查看端点活动和系统行为。特别是，部署仪表板包含四个关键指标，显示端点是如何被使用以及如何响应传入请求的。

以下是这些指标的更详细说明：

总请求数： 24 小时内所有端点的请求总数。这有助于识别使用模式和总体需求。
活跃部署： 当前正在运行并处理请求的端点数量。
P95 延迟： 95% 的请求完成的响应时间。通过考虑较慢的响应，这提供了更真实的性能视图。
错误率： 失败请求占总请求数的百分比。此指标有助于识别问题并可用于检测异常。

简而言之，这些指标清晰地呈现了已部署端点在生产中的运行方式。通过分析使用模式，团队和个人可以了解流量分布、识别峰值负载期，并确保系统随着使用量的增长保持响应和可靠。

Link to this section通过日志了解模型部署行为#

虽然指标提供了系统性能的高级视图，但日志提供了关于已部署端点如何处理单个请求的更详细信息。日志记录发送到端点的每个请求以及相应的响应。

它们对于跟踪问题、检查故障和了解请求处理方式非常有用。在 Ultralytics Platform 中，你可以选择任何部署来查看其详细信息，包括日志。

Ultralytics Platform 内的日志示例

图 3. Ultralytics Platform 中的日志示例 (来源)

平台中的日志条目以结构化格式显示，使其更容易理解每个请求期间发生的情况。每个条目都包含一个严重级别，用于指示事件的重要性，以及显示发生时间的时间戳。

它还包含描述事件的消息以及状态代码和延迟等 HTTP 相关详细信息。此信息有助于跟踪请求、支持故障排除并更有效地调试问题。最重要的是，日志按严重级别分组，因此用户可以优先处理需要关注的部署。

Link to this section在 Ultralytics Platform 上分析端点健康状况和可靠性#

监控还涉及了解已部署端点的整体健康状况，包括它们是否正常运行、是否准时响应以及是否在没有错误的情况下持续处理请求。Ultralytics Platform 提供了每个部署健康状态的清晰视图，从而可以直接验证端点是否按预期运行。

该平台包括每个部署的可视化健康指示器，显示在单个部署卡片上。

例如，绿色指示器表示端点运行状况良好且响应正常，而红色指示器则表示存在问题或停机。旋转图标表示系统正在主动检查部署的状态。

通过长期跟踪端点健康状况，可以及早发现问题、保持一致的性能并确保生产中运行的应用程序具有稳定的体验。

Link to this section监控数据与性能改进之间的联系#

模型监控不仅仅是跟踪指标。它创建了一个支持长期持续改进的反馈循环。随着端点处理真实流量，指标和日志中会出现一些模式，这些模式可以揭示延迟增加、错误率提高或系统行为不一致等问题。

监控突出显示了需要关注的领域。例如，持续的高延迟可能表明需要更好的资源分配或扩展，而上升的错误率可能指向请求处理或系统稳定性方面的问题。

一旦发现这些问题，就可以采取措施提高可靠性。这可能涉及调整基础设施、扩展资源或修复处理请求方式中的问题。在进行这些更改后，可以继续监控系统以确认性能是否得到改善。

通过将监控与持续改进联系起来，用户可以在使用量增长和条件变化时维护强大的系统。

Link to this section探索现实世界的例子：在航空领域监控行李处理#

为了更好地了解监控在现实场景中的影响，让我们探讨它如何应用于航空地面运营的自动化。

以一个旨在监控飞机地面作业期间行李装卸的视觉系统为例。在这种设置中，可以使用像 Ultralytics YOLO26 这样的目标检测模型来检测行李是否从传送带或装卸设备上掉落。

在测试和早期部署期间，实时系统可能表现良好，能够准确识别行李并快速响应。

然而，在真实的机场环境中，条件远不可预测。全天光照变化、多个摄像头同时流式传输数据，以及繁忙时段请求量激增。这些因素可能导致延迟上升或错误出现，如果没有对系统的可见性，这些问题很容易被忽视。

这就是监控变得有价值的地方。通过跟踪请求量、延迟和错误率等指标以及详细的日志，团队可以快速看到端点何时变慢或失败。如果延迟在高峰时段上升，它可能预示着需要扩展资源，而突然增加的错误可能指向特定摄像头或请求处理的问题。对这些信号采取行动有助于保持系统的可靠性，以便即使条件发生变化，行李处理也能继续得到准确监控。

Link to this section关键要点#

监控是使已部署的计算机视觉模型在离开开发的可控条件并开始处理真实流量后保持可靠的原因。通过关注请求量、延迟、错误率和正常运行时间等系统级信号，以及详细的日志，监控提供了及早发现问题并保持生产系统平稳运行所需的可见性。

由于监控直接集成到部署工作流程中，Ultralytics Platform 使跟踪端点健康状况、检查请求行为和维护可靠系统变得更加容易，而无需依赖单独的工具。通过将数据、训练、部署和监控汇集到一个地方，该平台帮助团队从实验转向可靠的实际部署。

加入我们日益壮大的 community，并探索我们的 GitHub repository 以了解更多关于视觉 AI 的信息。若想立即开始构建视觉 AI 项目，请查看我们的 licensing options。访问我们的解决方案页面，了解 AI in manufacturing 和 AI in healthcare 如何塑造未来。