マルコフ決定過程(MDP)
マルコフ決定過程(MDP)と、AI、強化学習、ロボティクス、および医療における意思決定におけるその役割をご覧ください。
マルコフ決定過程(MDP)は、結果が部分的にランダムであり、部分的に意思決定者の制御下にある状況における意思決定をモデル化するための数学的フレームワークです。これは強化学習(RL)の基礎となる概念であり、環境を記述するための正式な方法を提供します。エージェントは、状態を観察し、行動を選択することによってこの環境と相互作用し、時間の経過とともに累積報酬信号を最大化することを目指します。中心となる考え方は、マルコフ性に基づいています。これは、現在が与えられた場合、将来は過去から独立していると仮定します。言い換えれば、現在の状態は、最適な意思決定を行うために必要なすべての情報を提供します。
マルコフ決定過程の仕組み
MDPは、エージェントとその環境との間の相互作用を記述するいくつかの主要なコンポーネントによって定義されます。
- 状態(S): エージェントが置かれる可能性のあるすべての状況または構成のセット。たとえば、部屋の中のロボットの位置や、製品の在庫レベルなどです。
- アクション(A): エージェントが各状態で実行できるすべての可能な動きのセット。ロボットの場合、これは前進、左、または右に移動することです。
- 遷移確率: 特定の行動をとった後、現在の状態から新しい状態に移行する確率。これは、ロボットの車輪がスリップするなど、環境の不確実性を捉えます。
- 報酬関数: 新しい状態への移行の即時的な価値を示すシグナル。報酬は正または負の値を取り、エージェントを望ましい結果に導きます。
- ポリシー(π): エージェントが各状態でアクションを選択するために使用する戦略。MDPを解決する最終的な目標は、長期にわたって期待される総報酬を最大化する最適なポリシーを見つけることです。
プロセスは循環的です。エージェントは現在の状態を観察し、ポリシーに基づいてアクションを選択し、報酬を受け取り、新しい状態に移行します。このループが繰り返され、エージェントは経験から学習できます。
実際のアプリケーション
MDPは、幅広い逐次的意思決定問題をモデル化するために使用されます。
- ロボティクスと自律ナビゲーション: ロボティクスでは、MDPはロボットが複雑な空間をどのようにナビゲートするかをモデル化できます。状態はロボットの座標と向きであり、アクションはその動き(前進、回転など)です。報酬は、目的地に到達した場合は正、障害物との衝突や過剰なエネルギーの使用の場合は負になります。物体検出のためにコンピュータビジョン(CV)を頻繁に使用する知覚システムは、MDPに必要な状態情報を提供します。これは、感覚入力に基づいて常に意思決定を行う必要がある自動運転車などのアプリケーションの基礎となります。
- 在庫およびサプライチェーン管理: 企業は、MDP を使用して在庫管理を最適化できます。状態は現在の在庫レベル、アクションは再注文する製品の量、報酬関数は販売からの利益と在庫保管および品切れのコストのバランスを取ります。これは、不確実な需要の下で最適な注文の意思決定を行うのに役立ち、小売業向け AI における重要な課題です。サプライチェーン管理協会のような主要な組織は、このような高度な最適化手法を研究しています。
他の概念との関係
MDPを機械学習(ML)における関連概念と区別すると理解しやすくなります。
- 強化学習(RL): RLは、エージェントが最適な意思決定を行うように訓練することに関わるAIの分野です。MDPは、RLアルゴリズムが解決するように設計された問題を正式に定義する数学的なフレームワークを提供します。環境の遷移モデルと報酬モデルが不明な場合、RL手法を使用して試行錯誤を通じて最適なポリシーを学習します。深層強化学習は、深層学習モデルを使用して複雑で高次元の状態空間を処理することにより、これを拡張します。これについては、Sutton and Bartoの書籍のような基礎的なテキストで解説されています。
- 隠れマルコフモデル(HMM): 状態が完全に観測可能なMDPとは異なり、隠れマルコフモデル(HMM)は、状態が直接見えず、一連の観測から推測する必要がある場合に使用されます。HMMは、アクションや報酬を含まないため、意思決定ではなく、分析と推論を目的としています。
- 動的計画法: MDPの完全で正確なモデル(つまり、既知の遷移確率と報酬)が利用可能な場合、価値反復や方策反復のような動的計画法を使用して解決し、最適な方策を見つけることができます。
MDPのソリューション開発には、Gymnasiumのような強化学習ライブラリや、PyTorchやTensorFlowのようなMLフレームワークの使用が伴うことがよくあります。現在の状態を識別するこれらのシステムの知覚コンポーネントは、Ultralytics YOLO11のようなモデルを使用して構築できます。トレーニングデータの管理からモデルのデプロイメントまで、ワークフロー全体は、Ultralytics HUBのようなプラットフォームを使用して効率化でき、堅牢なMLOpsプラクティスで管理できます。