探索马尔可夫决策过程 (MDP) 及其在人工智能、强化学习、机器人和医疗保健决策中的作用。
马尔可夫决策过程(Markov Decision Process,MDP)是一个数学框架,用于模拟结果部分随机、部分受决策者控制的情况下的决策。 的数学框架。它是 强化学习(RL)的理论基础,提供了一种 提供了一种正式的方法来描述人工智能代理运行的环境。 人工智能代理运行的环境。通过将问题结构化为状态、行动和奖励,MDP 通过将问题结构化为状态、行动和奖励,MDPs 使智能系统能够计算出最佳策略(即策略),从而在一段时间内最大限度地实现特定目标。 特定目标。这一框架对于开发先进技术至关重要,从自动交易 系统到自动驾驶汽车。
一个 MDP 使用五个不同的元素来描述一个代理与其环境之间的互动。这些 研究人员可以用可解的方法定义复杂的机器学习(ML 机器学习 (ML)问题。 格式定义复杂的机器学习(ML)问题:
这一框架的核心假设是 马尔可夫特性,即进程的未来演变 进程只取决于当前状态,而不取决于之前的事件序列。这简化了 最优决策的计算要求。
MDP 广泛应用于各行各业,用于解决规划和适应性至关重要的连续决策问题。 适应性至关重要。
在现代人工智能应用中,MDP 的 "状态 "通常来自高维数据,如视频 馈送。计算机视觉(CV)模型处理 视觉输入来创建决策算法可以理解的结构化状态表示。
下面的Python 代码演示了如何使用预训练的YOLO11 模型从图像中提取状态信息(物体 坐标)。这些数据可以作为基于 MDP 的代理的输入状态。
from ultralytics import YOLO
# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")
# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")
将 MDP 与人工智能(AI)领域的其他相关术语区分开来很有帮助。 人工智能(AI)领域的其他相关术语加以区分:

