在 Ultralytics Platform 上监控已部署的计算机视觉模型
了解如何通过 Ultralytics Platform 监控生产环境中的计算机视觉模型。跟踪指标、检测问题并提高可靠性。
测试用于分析图像和视频的 computer vision models 与在生产环境中运行它们并不总是同一回事。在开发过程中,此类模型或算法是在条件受控且可预测的干净、准备充分的数据集上进行测试的。
一旦部署,情况就会变得更加动态。模型会暴露在真实世界的流量中,请求量可能会波动,响应时间可能会变化,偶尔还会发生故障。
在此阶段,重点转移到系统运行是否可靠,即在不断变化的环境下,端点是否保持可用、响应迅速且稳定。
这就是监控至关重要的原因。它通过请求量、延迟、错误率和整体系统健康状况等指标,清晰地呈现了已部署端点在生产环境中的表现。
为了简化这一过程,拥有合适的工具与模型本身同样重要。最近,Ultralytics 推出了 Ultralytics Platform,这是我们全新的端到端环境,汇集了从数据和训练到部署和监控的完整计算机视觉工作流。

图 1. 带有监控功能的 Ultralytics Platform 部署仪表板 (Source)
由于将监控直接内置到此工作流中,用户可以跟踪端点健康状况、检查请求行为并维护可靠的系统,而无需依赖单独的工具。在本文中,我们将探讨如何使用 Ultralytics Platform 来 monitor deployed model 端点并保持生产系统平稳运行。让我们开始吧!
Link to this sectionAI 模型监控概述#
在 AI 模型生命周期中,监控是指观察已部署的系统在模型上线并处理现实世界请求时的表现。虽然训练和验证展示了机器学习模型 (ML model) 在准备好的数据集上的性能,但监控侧重于已部署的端点在生产环境中的运行情况。
监控的一个关键部分是跟踪反映可靠性和响应能力的系统级指标。延迟和正常运行时间等指标有助于表明系统处理传入请求的效果。延迟衡量处理请求并返回响应所需的时间,而正常运行时间则强调端点保持可用的持续性。
另一个关键方面是可观察性,它提供了对请求处理方式的可见性。每当输入(例如图像或视频帧)发送到已部署的模型时,它都会作为推理请求进行处理。
日志会捕获这些请求以及时间戳、响应时间和状态代码等详细信息。这些日志使得追踪请求、调试问题和在故障发生时进行调查变得更加容易。它们在识别重复错误、缓慢响应或意外的系统行为等模式方面特别有用。
通过结合指标和日志,监控可以帮助用户了解其系统在生产环境中的运行状况,并对出现的问题做出快速响应。
Link to this section模型性能指标与系统指标的比较#
在深入探讨生产环境监控之前,我们先讨论一下模型性能指标和系统指标之间的区别。
通常,模型监控与评估指标(也称为模型指标)相关,例如准确率、精确率、召回率和 mAP (mean average precision)。这些指标用于描述模型行为并评估模型预测的质量,通常与生产数据或输入数据相关。它们对于识别新数据中的边缘情况或异常值特别有用。
然而,这与生产环境中的系统监控不同。在这种情况下,监控侧重于系统的运行状况,而不是直接评估模型预测。
部署监控不依赖模型指标,而是依赖于系统级信号,例如请求量、延迟、错误率和正常运行时间。这些指标提供了关于端点如何处理输入数据、响应的一致性以及在生产环境中运行情况的可见性。
Link to this section模型监控在计算机视觉项目中的作用#
接下来,让我们看一个现实世界的例子,它突显了计算机视觉部署中对监控系统的需求。
考虑一个使用 pose estimation 的视觉解决方案,这是一种用于识别和分析人体运动的计算机视觉任务,旨在监控施工人员的安全合规性。在初始模型部署期间,此类系统在条件清晰、场景标准的受控环境下可能表现良好。
然而,真实的建筑工地引入了额外的复杂性。全天的请求量可能会波动,网络条件可能不稳定,多个摄像头或端点可能同时发送数据。如果系统没有得到妥善监控,这些因素可能会导致响应变慢或偶尔出现故障。

图 2. 在施工现场用于监控工人的姿态估计 (Source)
在这样的生产环境中,了解系统运行的可靠性变得非常重要。监控提供了关于端点是否可用、对传入请求的响应速度以及随时间推移处理流量的一致性的可见性。
例如,延迟增加可能指向更高的负载或资源限制,而错误率上升则可能表明请求处理或系统稳定性存在问题。日志通过显示单个请求如何被处理以及故障发生的位置来增加更多背景信息。
通过跟踪这些信号,AI 爱好者和数据科学家可以及早发现问题,更有效地进行故障排除,并确保其系统随着现实世界条件的变化持续可靠运行。
Link to this section使用 Ultralytics Platform 监控已部署的视觉模型#
在许多深度学习工作流中,监控通常使用单独的工具进行日志记录、指标跟踪和系统健康检查。这种分散的设置可能会导致难以清楚地了解已部署的端点在生产环境中的运行状况,并增加了管理部署的复杂性。
Ultralytics Platform 通过将监控直接引入一个统一的环境来简化此过程,该环境涵盖了完整的 computer vision workflow,从数据摄取和标注到训练、部署和监控。
通过这种集成设置,用户可以在无需设置外部日志系统或额外仪表板的情况下,跟踪已部署端点处理真实世界流量的情况。一切都集中在一个地方,使得观察系统行为并长期维护可靠的部署变得更加容易。
监控功能可以直接从 Deploy tab 中访问。从单个仪表板中,用户可以跟踪关键指标、分析请求级行为并可视化趋势。这些内置的可视化效果使人们更容易理解解决方案的性能,而无需在不同工具之间切换。
通过将监控、部署和模型管理整合到更广泛的工作流中,该平台降低了复杂性。这使得专注于管理部署、优化系统性能和保持可靠性变得更加无缝。
Link to this sectionUltralytics Platform 的内置监控功能#
在实际部署中,监控取决于是否能够清晰地了解系统随时间变化的运行状况。它不仅限于跟踪几个指标,还涉及了解已部署的端点在不同环境中的行为,以及有效地管理多个部署。
受视觉 AI 社区对常见计算机视觉挑战的反馈启发,Ultralytics Platform 包含了多项使监控更具实践性和可扩展性的功能。
以下是其中一些关键功能的概述:
- 全局部署可见性: Deploy 页面包含一个交互式世界地图,显示具有活动和进行中端点视觉指示器的部署区域,允许用户监控地理分布和区域活动。
- 灵活的仪表板视图: 部署仪表板提供多种视图模式,包括卡片视图、紧凑网格和具有可排序列(如名称、区域、状态和请求)的表格视图,支持结构化监控和比较。
- 监控多个端点: 该仪表板使用概览卡和部署列表汇总跨所有部署的监控数据。
- 数据保留策略: 监控数据保留在定义的时间段内,指标保留 30 天,日志保留 7 天,支持近期的性能分析和调试工作流。
- 外部监控支持: 可以使用 Datadog、New Relic 和正常运行时间监控服务等外部工具来监控部署端点,或者通过 API 端点进行自定义监控和健康检查。
接下来,我们将更详细地介绍其中一些功能,看看它们如何用于监控生产环境中的已部署端点。
Link to this section如何使用 Ultralytics Platform 跟踪关键性能指标#
一旦部署了模型,监控就从跟踪关键系统指标开始。虽然准确率和召回率等指标在开发过程中很有用,但生产环境监控侧重于响应时间和错误率等系统级信号,这些信号提供了关于端点处理现实世界流量可靠性的可衡量见解。
Ultralytics Platform 提供了一个集中式仪表板,清晰地展示了端点活动和系统行为。具体来说,Deployment 仪表板包括四个关键指标,显示了端点的使用情况以及它们对传入请求的响应方式。
以下是这些指标的详细说明:
- 总请求数: 24 小时内所有端点的请求总数。这有助于识别使用模式和总体需求。
- 活跃部署: 当前正在运行并响应请求的端点数量。
- P95 延迟: 95% 的请求完成所对应的响应时间。通过考虑较慢的响应,这提供了更真实的性能视图。
- 错误率: 失败请求占总请求数的百分比。此指标有助于识别问题并可用于检测异常。
简而言之,这些指标清晰地展示了已部署端点在生产环境中的运行方式。通过分析使用模式,团队和个人可以了解流量分布、识别峰值负载期间,并确保系统随着使用量的增长保持响应和可靠。
Link to this section通过日志了解模型部署行为#
虽然指标提供了系统性能的高层概览,但日志提供了关于已部署端点如何处理单个请求的更详细视图。日志记录了发送到端点的每个请求以及相应的响应。
它们对于跟踪问题、检查故障和了解请求处理方式很有用。在 Ultralytics Platform 内,你可以选择任何部署来查看其详细信息,包括日志。

图 3. Ultralytics Platform 内的日志示例 (Source)
平台中的日志条目以结构化格式显示,使理解每个请求期间发生的事情变得更容易。每个条目都包含一个严重性级别,指示事件的重要性,以及显示其发生时间的时间戳。
它还包含描述事件的消息以及与 HTTP 相关的详细信息,例如状态代码和延迟。此信息有助于追踪请求、支持故障排除并更有效地调试问题。此外,日志按严重性分组,因此用户可以优先处理需要关注的部署。
Link to this section在 Ultralytics Platform 上分析端点健康状况和可靠性#
监控还涉及了解已部署端点的整体健康状况,包括它们是否运行正常、响应是否及时以及是否能持续处理请求而不出错。Ultralytics Platform 为每个部署的健康状态提供了清晰的视图,使得验证端点是否按预期运行变得简单明了。
该平台为每个部署提供了可视化的健康指示器,显示在各个部署卡片上。
例如,绿色指示器显示端点健康且响应正常,而红色指示器则发出问题或停机的信号。旋转的图标表示系统正在主动检查部署的状态。
通过跟踪端点随时间变化的健康状况,可以及早发现问题、维持一致的性能,并为生产中运行的应用程序确保稳定的体验。
Link to this section监控数据与性能提升之间的联系#
模型监控不仅是跟踪指标。它建立了一个反馈回路,支持随时间推移的持续改进。随着端点处理真实世界的流量,指标和日志中开始出现模式,这些模式可以揭示延迟增加、错误率升高或系统行为不一致等问题。
监控突显了需要关注的领域。例如,持续的高延迟可能表明需要更好的资源分配或扩展,而不断上升的错误率可能指向请求处理或系统稳定性方面的问题。
一旦发现这些问题,就可以采取措施提高可靠性。这可能涉及调整基础设施、扩展资源或修复请求处理方式中的问题。在这些更改之后,可以继续监控系统以确认性能是否得到改善。
通过将监控与持续改进联系起来,用户可以在使用量增长和条件变化时保持系统的稳健性。
Link to this section探索现实世界的例子:在航空业中监控行李处理#
为了更好地了解监控在现实场景中的影响,让我们探讨它如何应用于 aviation ground operations 的自动化。
以一个旨在监控飞机地面作业期间行李装卸的视觉系统为例。在此设置中,像 Ultralytics YOLO26 这样的目标检测模型可用于检测行李是否从传送带或装卸设备上掉落。
在测试和早期部署阶段,实时系统可能表现良好,能够准确识别行李并做出快速响应。
然而,在繁忙的机场环境中,情况则远没有那么可预测。光照全天都在变化,多个摄像头同时传输数据,并且请求量在繁忙时期激增。这些因素可能导致延迟上升或出现错误,如果无法洞察系统,此类问题很容易被忽略。
这就是监控变得有价值的地方。通过跟踪请求量、延迟和错误率等指标以及详细的日志,团队可以快速查看端点何时变慢或失败。如果延迟在高峰时段上升,可能预示着需要扩展资源,而错误的突然增加可能指向特定摄像头或请求处理的问题。根据这些信号采取行动有助于保持系统的可靠性,以便即使在条件变化时,也能继续准确地监控行李处理。
Link to this section关键要点#
监控是确保已部署的计算机视觉模型在离开受控的开发条件并开始处理真实世界流量后依然可靠的关键。通过侧重于请求量、延迟、错误率和正常运行时间等系统级信号,以及详细的日志,监控提供了及早发现问题并保持生产系统平稳运行所需的可见性。
由于将监控直接内置到部署工作流中,Ultralytics Platform 使得跟踪端点健康状况、检查请求行为并维护可靠系统变得更加容易,而无需依赖单独的工具。通过将数据、训练、部署和监控集中在一个地方,该平台有助于团队从实验转向可靠的现实世界部署。
加入我们不断壮大的 community,并探索我们的 GitHub repository 以了解更多关于视觉 AI 的信息。要立即使用视觉 AI 进行构建,请查看我们的 licensing options。通过访问我们的解决方案页面,了解 AI in manufacturing 和 AI in healthcare 如何塑造未来。






