用語集

Kubernetes

スケーラブルなモデルデプロイメント、分散トレーニング、効率的なリソース管理により、KubernetesがAI/MLワークロードをいかに効率化するかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Kubernetes(しばしばK8sと略される)は、コンテナ化されたアプリケーションのデプロイ、スケーリング、管理を自動化するために設計されたオープンソースのプラットフォームだ。もともとは Googleによって開発され、現在はCloud Native Computing Foundation(CNCF)によってメンテナンスされているKubernetesは、分散システムを弾力的に実行するための堅牢なフレームワークを提供する。人工知能(AI)や機械学習(ML)に携わる人々にとって、Kubernetesはトレーニングから デプロイ推論に至るまで、モデルの複雑なライフサイクルを管理する強力なツールを提供する。Kubernetesは、MLモデルの開発と本番環境での確実な実行のギャップを埋めるのに役立ちます。

コアコンセプトの簡素化

Kubernetesはコンテナをオーケストレーションする。コンテナとは、ソフトウェアとその依存関係を含む軽量のスタンドアロン・パッケージである。主なコンセプトは以下の通り:

  • ポッド:Kubernetesにおける最小のデプロイ可能な単位で、通常はリソースとネットワークを共有する1つ以上のコンテナを保持する。Podは、MLアプリケーションや推論サーバーコンテナのラッパーだと考えてください。
  • ノード:Podを実行するワーカーマシン(仮想または物理)。Kubernetesは、利用可能なノードにPodを分散させる管理を行う。
  • サービス:Podの論理セットと、それらにアクセスするためのポリシーを定義する抽象化で、多くの場合、動的なPodに対して安定したIPアドレスまたはDNS名を提供する。MLの推論エンドポイントを公開するために不可欠。
  • デプロイ:アプリケーションの望ましい状態を記述し、ReplicaSet(同一のPodのグループ)を管理して可用性を確保し、アップデートに対応します。ダウンタイムなしで新しいモデルのバージョンをロールアウトするのに便利です。

これらの構成要素を理解することは、スケーラブルで弾力性のあるMLシステムの設計に役立つ。

AIと機械学習における関連性

Kubernetesは、いくつかの利点により、最新の機械学習運用(MLOps)の要となっている:

  • スケーラビリティ:大規模モデルのトレーニングや推論リクエストへの対応といったMLタスクでは、リソース需要が変動することがよくあります。Kubernetesは、負荷に応じてコンテナ(Pod)の数を自動的に増減できるため、GPUなどのリソースを効率的に使用できます。
  • リソース管理:をきめ細かく制御できる。 CPUとメモリの割り当てをきめ細かく制御し、リソースの競合を防いでパフォーマンスを確保します。特に、高価なGPU リソースを複数の実験やサービスにわたって管理する場合に重要です。
  • 移植性と一貫性:Kubernetesは、オンプレミスのサーバーであれ、Amazon EKSGoogle GKEAzure AKSのような様々なクラウドコンピューティングプラットフォームであれ、異なるインフラ間で一貫した環境を提供する。これにより、開発、テスト、本番間のMLワークフローの移動が簡単になります。多くの場合、Dockerセットアップから始めて、Kubernetesでスケールアップすることができます。
  • 自動化とオーケストレーション:サービスディスカバリー、ロードバランシング、セルフヒーリング(故障したコンテナの再起動)、構成管理などの複雑なタスクを自動化し、MLチームの手作業によるオーバーヘッドを削減する。

実際のAI/MLアプリケーション

  1. 分散モデルトレーニング:複雑なディープラーニング(DL)のような大規模モデルのトレーニング Ultralytics YOLOのような大規模なディープラーニング(DL)モデルのトレーニングには、多くの場合、膨大な計算能力が必要です。Kubernetesは、Kubeflowのようなフレームワークや、以下のようなネイティブ統合を使用して、分散トレーニング用のマシンのクラスタを管理できます。 PyTorchまたは TensorFlow.Kubernetesは、訓練ジョブのスケジューリング、データアクセスの管理、ノード間でのGPUの効率的な割り当てを行います。
  2. スケーラブルな推論サービス: リアルタイム推論のようなMLモデルのデプロイには、高可用性と低レイテンシーが必要です。Kubernetesは、ロードバランサーの背後で推論サーバー(例えば、Ultralytics モデルと統合するNVIDIA Triton Inference Serverを使用 -Triton ガイドを参照)をホストすることができます。これは、入力トラフィックに基づいて推論サーバーPodの数を自動的にスケールし、画像分類や 自然言語処理(NLP)のようなタスクのピーク負荷時でも応答性を確保します。

Kubernetesと関連テクノロジーの比較

  • KubernetesとDockerの比較: Dockerは、個々のコンテナを作成、出荷、実行(コンテナ化)するためのツールだ。Kubernetesはコンテナ用のオーケストレーターで、多数のマシンにまたがる何千ものコンテナを管理する。通常、Dockerでコンテナイメージを構築し、Kubernetesでデプロイと管理を行います。コンテナの基本については、Dockerクイックスタートガイドを参照してください。
  • Kubernetesとサーバーレス・コンピューティングの比較: サーバーレスプラットフォーム(AWS LambdaやGoogle Cloud Functionsなど)は、サーバー管理を完全に抽象化し、イベントドリブンな機能にフォーカスしている。Kubernetesは基礎となるインフラストラクチャをよりコントロールでき、長時間稼働するアプリケーションや複雑なステートフル・サービスに適しているが、サーバーレス・フレームワークはKubernetes上で実行できるKnativeなど)。

ツールとエコシステム

Kubernetesエコシステムには、管理を簡素化するための多くのツールが含まれている:

  • Helm:Kubernetes用のパッケージマネージャで、複雑なアプリケーションの定義、インストール、アップグレードを支援する。
  • PrometheusとGrafana:Kubernetesクラスタとアプリケーションを監視するための人気のオープンソースツール。
  • クラウドプロバイダーとの統合:マネージドKubernetesサービス(EKS、GKE、AKS)は、クラスタのセットアップとメンテナンスを簡素化します。
  • MLプラットフォーム: KubeflowのようなツールはKubernetes上に構築され、MLに特化したワークフローを提供する。Ultralytics HUBのようなプラットフォームは、デプロイメントパイプラインを簡素化することを目的としており、Kubernetesの複雑さを抽象化してモデルのデプロイを容易にすることもある。

Kubernetesは、スケーラブルで信頼性の高いAI/MLアプリケーションを多様な環境で構築、デプロイ、管理するための強力な基盤を提供し、MLOpsのランドスケープにおいて極めて重要なスキルとなっている。

すべて読む