マルコフ決定過程(MDP)
マルコフ決定過程(MDP)と、AI、強化学習、ロボティクス、および医療における意思決定におけるその役割をご覧ください。
マルコフ決定過程(MDP)は、結果が部分的にランダムで部分的に意思決定者のコントロール下にある状況での意思決定をモデル化するのに使われる数学的枠組みである。
をモデル化するために使用される数学的枠組みである。MDPは以下の理論的基礎となる。
強化学習(RL)の理論的基礎となっている。
強化学習(RL)の理論的基礎となるもので
AIエージェントが動作する環境を記述する形式的な方法を提供する。問題を状態
MDPは、問題を状態、行動、報酬に構造化することで、知的システムが特定の目標を時間的に最大化するための最適な戦略を計算することを可能にする。
を計算することができる。このフレームワークは、自動取引システムから自律走行車まで、高度な技術を開発するために不可欠である。
システムから自律走行車まで、先進技術の開発には欠かせない。
MDPのコア・コンポーネント
MDPは、エージェントとその環境との間の相互作用を、5つの異なる要素を用いて特徴付ける。これらの要素
これらの要素により、研究者は複雑な
機械学習(ML)問題を解決可能な形式で定義することができる。
形式で定義することができる:
-
ステート(S):すべての
エージェントが占有できるすべての可能な状況の集合。チェスゲームでは、状態は盤上の駒の現在の配置を表す。
を表す。
-
アクション(A):エージェントが与えられた状態から
与えられた状態からエージェントが取り得るすべての可能な動きや決定の集合。
-
遷移確率:特定のアクションを実行した後に、ある状態から別の状態に移行する可能性。
特定のアクションを実行した後に、ある状態から別の状態に移行する可能性。このコンポーネントは環境の不確実性をモデル化したもので、しばしば
確率過程と表現されることが多い。
-
報酬機能:フィードバック信号。
フィードバック信号。エージェントはこの信号を使ってパフォーマンスを評価する。
-
ポリシー($pi$):エージェントの行動を定義する戦略やルールブック。MDPを解く目的は
MDPを解く目的は、長期的に総期待報酬を最大化する「最適政策」を見つけることである。
この枠組みの中心的な仮定は
マルコフ特性である。
マルコフ特性とは、プロセスの将来の展開は現在の状態にのみ依存し、それ以前の一連のイベントには依存しないというものである。これにより
最適な決定を行うための計算要件が単純化される。
実際のアプリケーション
MDPは、計画性と適応性が重要な逐次的意思決定問題を解くために、様々な産業で広く使われている。
を解くために様々な産業で広く使用されている。
-
ロボット工学:ロボットはしばしば
ロボットは、センサーがノイズの多いデータを提供するダイナミックな環境で動作することが多い。MDPは、ロボットの位置を状態、動きを行動として扱うことで、ロボットが経路を計画することを可能にする。
MDPは、ロボットの位置を状態、動きを行動として扱うことで、ロボットの経路計画を可能にする。視覚システムは
のような物体検出モデル
YOLO11YOLO11のような物体検出モデルを搭載した視覚システムは、ロボットが世界の状態を認識するのに役立つ。
YOLO11のような物体検出モデルを搭載した視覚システムは、障害物の存在など、世界の状態を認識するのに役立ち、ロボットが安全かつ効率的にナビゲートできるようにします。
-
在庫管理:サプライチェーン・ロジスティクスにおいて、企業は在庫レベルを最適化するためにMDPを使用する。
ここで、状態とは現在の在庫のことであり、アクションとは再注文する製品の量を決定することである。報酬
この報酬関数は、販売による利益と保管コストや在庫切れによる収入損失とのバランスをとる。
小売業向けAIにおける重要なアプリケーションである。
-
ヘルスケア治療計画:MDPは、慢性疾患患者のための個別化された治療計画の立案を支援する。
を設計するのに役立ちます。患者の健康状態を一連の状態としてモデル化することで、医師は長期的な健康アウトカムを最大化するための最適な治療順序を決定することができます。
を決定することができます。
医療画像解析
状態入力としての知覚
現代のAIアプリケーションでは、MDPの「状態」は、ビデオフィードのような高次元のデータから得られることが多い。
フィードから得られる。コンピュータビジョン(CV)モデルは
視覚入力を処理し、意思決定アルゴリズムが理解できる構造化された状態表現を作成する。
以下のPython コードは、事前に学習されたYOLO11 モデルを使用して、画像から状態情報(オブジェクトの座標)を抽出する方法を示しています。
座標)を抽出する方法を示す。このデータはMDPベースのエージェントの入力状態として利用できる。
from ultralytics import YOLO
# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")
# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")
関連概念の区別
MDPは、人工知能(AI)の世界における他の関連用語と区別するのに役立つ。
人工知能(AI)と区別するのに役立つ:
-
強化学習(RL):
同じ意味で使われることが多いが、この区別は重要である。MDPはフレームワークまたは問題文である。
であり、RLはそれを解くための手法である。
RLは、遷移確率や報酬関数が初期状態ではわからない場合に用いられる解法である。エージェントは試行錯誤を通じて最適な方針を学習する。
で説明されている。
-
隠れマルコフモデル(HMM):
HMMは、システムの真の状態が完全に観測可能ではなく、確率的な出力から推測しなければならない場合に使用される。
出力から推測しなければならない。対照的に、標準的なMDPは、エージェントが現在の状態を完全に把握できることを前提としている。
-
ディープ強化学習(DRL):
DRLはMDPと深層学習(DL)を組み合わせたものだ。
従来のMDPソルバーは、膨大な状態空間(ビデオゲームで可能なピクセルの組み合わせの数のような)に苦戦していました。
ビデオゲームにおける可能なピクセルの組み合わせの数のような)。DRLはニューラルネットワークを使用して
のようなツールでシミュレートされた複雑な環境の解を可能にします。
体育館