机器学习运维 (MLOps)
探索 MLOps 的强大功能:简化 ML 模型部署、自动化工作流程、确保可靠性并高效扩展 AI 成功。
机器学习运营(MLOps)代表了机器学习、数据工程和 DevOps
实践的交叉点。它是一套标准化流程和工具,旨在简化
机器学习 (ML)模型的生命周期,将它们从
实验研究到可扩展、可靠的生产系统。传统的软件开发依赖于
DevOps 原则来管理代码变更,而 MLOps 则增加了两个关键维度:数据和模型。
关键维度:数据和模型。这种整体方法可确保
人工智能(AI)
应用随着时间的推移保持准确和高效,解决诸如模型衰减和数据分布变化等独特挑战。
数据分布。
MLOps 生命周期的核心组成部分
强大的 MLOps 框架实现了端到端工作流程的自动化,确保了可重复性和更快的上市时间。生命周期
生命周期通常包括几个综合阶段:
-
数据管理:这涉及数据集的收集、清理和版本管理。有效的
有效的数据预处理可确保
输入模型的信息是高质量和一致的。团队通常使用
Apache Airflow等工具来协调这些复杂的数据管道。
-
模型开发:数据科学家参与
模型培训和实验。这一阶段包括
超参数调整,以优化
性能。使用MLflow等工具跟踪实验对于确保
能识别和复制性能最佳的模型。
-
部署和服务:一旦模型通过验证,就需要将其
模型部署到生产环境中。
这通常涉及使用 Docker 进行容器化,以确保在不同计算环境中的一致性,或将模型导出为互操作格式,如
确保在不同计算环境中的一致性,或导出为互操作格式,如
ONNX等互操作格式,以实现跨平台兼容性。
-
监测和维护:部署后,必须观察系统是否出现
数据漂移,即真实世界的数据偏离训练数据。
训练数据。持续的
模型监控使团队能够detect
性能下降,并自动触发重新训练周期。
MLOps 与相关概念
了解 MLOps 与类似术语的区别对于实施正确的战略至关重要:
-
MLOps vs. DevOps: DevOps专注于持续交付软件代码。
软件代码的持续交付,而 MLOps 则包括代码、数据和模型工件。在 MLOps 中,"错误 "可能不是破损的代码
在 MLOps 中,"错误 "可能不是代码被破坏,而是由于不断变化的环境因素导致的准确性下降。
在 MLOps 中,"错误 "可能不是代码被破坏,而是由于不断变化的环境因素导致的精度下降。
-
MLOps 与 Model Serving:
模型服务是 MLOps 的一个特定子集,其重点是
模型服务是 MLOps 的一个特定子集,严格侧重于托管模型和处理推理请求所需的基础设施。MLOps
管理服务基础设施以及培训和管理。
-
MLOps 与 AutoML:
自动机器学习(AutoML)
可自动完成模型选择和训练过程。MLOps 则在模型创建后管理其运行生命周期。
创建。
实际应用
MLOps 将理论模型转化为各行各业的实际业务解决方案。
-
智能零售库存:一家大型零售商使用
YOLO11进行
物体检测来监控货架库存。一个
MLOps 管道会在添加新产品时自动更新数据集。当系统检测到
置信度低于阈值时,系统会触发
在Ultralytics 平台上重新训练数据集、
验证新模型,并在不停机的情况下将更新推送到数千台边缘设备上。
-
制造业的预测性维护:工厂利用
计算机视觉来detect 装配线上的缺陷
生产线上的缺陷。为了处理高速生产,模型经过优化,以实现较低的
推理延迟
TensorRT.MLOps 可确保随着制造公差的变化、
模型进行更新和版本控制,以保持严格的
质量检验
标准。
利用Ultralytics实施 MLOps
MLOps 的一个基本步骤是确保模型训练的可重复性和可记录性。下面的代码演示了
如何启动自动生成版本化工件和指标的训练运行,这是任何
MLOps 管道的关键要求。
from ultralytics import YOLO
# Load the YOLO11 model (recommended for state-of-the-art performance)
model = YOLO("yolo11n.pt")
# Train the model on a dataset
# This step generates logs, saves model weights, and records metrics
# essential for the experiment tracking phase of MLOps.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
随着该领域的发展,YOLO26等即将推出的架构在设计上将与这些自动化流水线更加无缝地集成在一起。
提供本地端到端功能,简化从培训到部署的过渡。
培训到部署的过渡。MLOps 仍是使这些先进模型在现实世界中可靠运行的支柱。
利用
云计算
规模和边缘人工智能效率。