敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

Kubernetes

了解 Kubernetes 如何通过可扩展的模型部署、分布式训练和高效的资源管理来简化 AI/ML 工作负载。

Kubernetes(通常缩写为 K8s)是一个开源的容器编排平台,可自动执行容器化应用程序的部署、扩展和管理。Kubernetes 最初由 Google 开发,现在由 Cloud Native Computing Foundation (CNCF) 维护,它为运行弹性分布式系统提供了一个强大的框架。在 人工智能 (AI)机器学习 (ML) 领域,它已成为管理 ML 模型整个生命周期的重要工具,从训练到生产环境中的部署

Kubernetes 的工作原理

Kubernetes 在机器集群上运行,这些机器可以是物理服务器或虚拟机,可以在本地或云端。主要组件包括:

  • 集群:一组运行容器化应用程序的节点(工作机器)。
  • 节点: Kubernetes 集群中的一个工作机器。每个节点运行一个 Kubelet,Kubelet 是用于管理节点并与控制平面通信的代理。
  • Pod: Kubernetes 对象模型中最小和最简单的单元。Pod 代表集群中运行进程的单个实例,并且可以包含一个或多个容器,例如 Docker 容器。
  • 部署: 管理一组副本Pod,确保始终运行指定数量的Pod。它会自动处理更新和回滚。

通过抽象底层硬件,Kubernetes 允许开发人员和 MLOps 工程师定义其应用程序的所需状态,并且它可以维护该状态,自动处理故障和扩展需求。您可以从 Kubernetes 官方文档 中了解更多信息。

AI和机器学习中的 Kubernetes

Kubernetes 对于 机器学习运维 (MLOps) 尤其强大,因为它解决了大规模构建和部署 AI 系统相关的许多挑战。它高效管理资源的能力使其成为资源密集型任务(如 模型训练)的理想选择。Kubernetes 可以在多个 GPU 和节点上扩展训练作业,从而显著减少训练时间。

对于推理,Kubernetes 确保高可用性和可扩展性。以下是几个真实的例子:

  1. 可扩展的目标检测服务: 一家公司部署了一个 Ultralytics YOLO11 模型,用于作为 Web 服务的实时目标检测。该模型被打包到一个容器中。使用 Kubernetes,他们可以根据传入的流量自动向上或向下扩展推理 pod 的数量。如果节点发生故障,Kubernetes 会自动将 pod 重新调度到健康的节点上,从而确保服务在无需人工干预的情况下保持可用。这是在智能监控系统中部署模型的常见模式。
  2. 作为微服务的复杂 NLP 管道: 团队构建一个自然语言处理 (NLP)应用程序,该应用程序涉及多个步骤:文本预处理、情感分析和命名实体识别。每个组件都是一个单独的微服务,独立容器化。Kubernetes 编排这些服务,管理它们的网络,并允许独立更新和扩展每个部分。这种架构为复杂的AI 驱动的应用程序提供了灵活性和弹性。

Kubernetes 与相关技术对比

  • Kubernetes 与 Docker: Docker 是一种用于构建和运行单个容器的工具。Kubernetes 是一个用于容器的编排器,用于管理跨多台机器的数千个容器。它们不是竞争对手,而是合作者;您可以使用 Docker 构建容器镜像,然后使用 Kubernetes 管理它们。您可以按照 Docker 快速入门指南开始学习基础知识。
  • Kubernetes 与 Serverless 计算:AWS Lambda 这样的 Serverless 平台 抽象掉了所有的服务器管理。相比之下,Kubernetes 提供了对基础设施的更多控制,使其更适合长期运行或有状态的应用程序。虽然对于事件驱动型函数来说,Serverless 更简单,但 serverless 框架可以使用 Knative 等工具在 Kubernetes 上运行。

工具和生态系统

Kubernetes 生态系统非常庞大,包括许多扩展其功能的工具:

  • Helm:通常被称为Kubernetes的包管理器,Helm可帮助您管理Kubernetes应用程序。
  • Prometheus & Grafana:用于监控 Kubernetes 集群和应用程序的常用组合。
  • 云提供商集成:主要的云提供商提供托管的 Kubernetes 服务,例如 Google Kubernetes Engine (GKE)Amazon Elastic Kubernetes Service (EKS)Azure Kubernetes Service (AKS),这些服务简化了集群设置和维护。
  • ML 平台:Kubeflow 这样的工具构建于 Kubernetes 之上,为管道、训练和部署提供特定于 ML 的工作流程。诸如 Ultralytics HUB 之类的平台简化了 MLOps 管道,通常抽象化 Kubernetes 的复杂性,从而更轻松地进行模型部署

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板