敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

模型服务

了解模型服务的基础知识——部署 AI 模型以实现实时预测、可扩展性以及与应用程序的无缝集成。

模型服务是指将训练好的机器学习 (ML)模型提供给生产环境,以接收输入数据并返回预测的过程。一旦模型经过训练和验证,服务就是将其从静态文件转换为可驱动实际应用的主动、可操作工具的关键步骤。它包括在服务器上部署模型,并创建一个接口(通常是 API),允许其他软件系统与其通信以进行实时推理

虽然密切相关,但模型服务是 模型部署 这一更广泛过程中的一个特定组成部分。部署包括将模型集成到生产环境中的整个工作流程,包括基础设施设置和监控。模型服务特指该基础设施中负责运行模型并有效处理推理请求的部分。

模型服务的关键组件

一个强大的模型服务系统由多个集成组件组成,这些组件协同工作,以提供快速且可靠的预测。

  • 模型格式: 在服务之前,必须将模型打包成标准化格式。像 ONNX 这样的格式可确保跨不同框架的互操作性。为了获得最佳性能,可以使用 TensorRT 等工具针对 NVIDIA GPU 优化模型。
  • 服务框架: 专门的软件,用于加载模型、管理硬件资源(如GPU)和处理推理请求。流行的框架包括TensorFlow ServingPyTorch Serve和高性能的NVIDIA Triton Inference Server,可以通过我们的Triton集成指南与Ultralytics模型一起使用。
  • API端点(API Endpoint): 这是一个通信网关,允许客户端应用程序发送数据(如图像或文本)并接收模型的预测。REST和gRPC是用于此目的的常见API协议。
  • 基础设施: 模型运行的物理或虚拟硬件。 范围可以从本地服务器到 云计算 平台(如 Amazon SageMakerGoogle Cloud AI Platform)。 对于需要低延迟的应用程序,模型通常在 边缘 AI 设备上提供服务。 使用 Docker 等工具进行 容器化 对于创建可移植且可扩展的服务环境至关重要。
  • 监控与日志记录: 持续跟踪模型性能和系统健康状况。这包括监控诸如推理延迟和吞吐量等指标,以及关注诸如数据漂移等问题,这些问题会随着时间的推移降低模型的准确性。您可以在我们的模型监控指南中了解更多信息。

实际应用

模型服务是无数 AI 驱动功能背后的引擎。

  1. 人工智能驱动的库存管理: 一家零售公司使用 Ultralytics YOLO11 模型进行 实时库存管理。 该模型以 ONNX 格式打包,并在商店内的一台小型边缘计算机上运行。 摄像头将视频流发送到服务终端,该终端执行 目标检测 以计算货架上的商品数量,并在库存不足时发送警报。
  2. 云端医学图像分析:医院系统部署了一个复杂的计算机视觉模型用于医学图像分析。由于模型尺寸大且计算需求高,因此它在具有多个GPU的强大云服务器上提供服务。放射科医生通过安全门户上传高分辨率扫描图像,该门户调用服务API。该模型返回预测结果,有助于识别潜在的异常情况,从而提高诊断速度和准确性。

MLOps 的作用

模型服务是机器学习运维 (MLOps)的基石。一个好的 MLOps 策略可确保整个生命周期(从数据预处理模型训练到服务和监控)是自动化、可靠且可扩展的。像Ultralytics HUB这样的平台旨在简化整个工作流程,提供一个集成的解决方案来有效地训练、版本控制和服务计算机视觉模型。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板