深圳Yolo 视觉
深圳
立即加入
词汇表

马尔可夫决策过程 (MDP)

探索马尔可夫决策过程 (MDP) 及其在人工智能、强化学习、机器人和医疗保健决策中的作用。

马尔可夫决策过程(Markov Decision Process,MDP)是一个数学框架,用于模拟结果部分随机、部分受决策者控制的情况下的决策。 的数学框架。它是 强化学习(RL)的理论基础,提供了一种 提供了一种正式的方法来描述人工智能代理运行的环境。 人工智能代理运行的环境。通过将问题结构化为状态、行动和奖励,MDP 通过将问题结构化为状态、行动和奖励,MDPs 使智能系统能够计算出最佳策略(即策略),从而在一段时间内最大限度地实现特定目标。 特定目标。这一框架对于开发先进技术至关重要,从自动交易 系统到自动驾驶汽车

管理发展计划的核心组成部分

一个 MDP 使用五个不同的元素来描述一个代理与其环境之间的互动。这些 研究人员可以用可解的方法定义复杂的机器学习(ML 机器学习 (ML)问题。 格式定义复杂的机器学习(ML)问题:

  • 国家(S)所有 代理可以占据的所有可能情况的集合。在国际象棋游戏中,状态代表棋盘上棋子的当前配置。 棋盘上棋子的当前配置。
  • 行动 (A):所有 代理人在给定状态下可能采取的行动或做出的决定。
  • 转换概率:执行特定操作后从一种状态转移到另一种状态的可能性。 的可能性。这部分模拟了环境中的不确定性,通常被描述为一个 随机过程
  • 奖励功能:反馈信号,可量化在特定状态下采取特定行动所带来的直接利益。 反馈信号。代理利用这一信号来评估自己的表现。
  • 政策($\pi$):定义代理行为的策略或规则手册。求解一个 MDP 的目标是找到一个 "最优策略",使长期总预期收益最大化。

这一框架的核心假设是 马尔可夫特性,即进程的未来演变 进程只取决于当前状态,而不取决于之前的事件序列。这简化了 最优决策的计算要求。

实际应用

MDP 广泛应用于各行各业,用于解决规划和适应性至关重要的连续决策问题。 适应性至关重要。

  • 机器人机器人通常 在动态环境中,传感器会提供嘈杂的数据。通过 MDP,机器人可以将其位置视为状态,将其运动视为行动,从而规划其路径。 将其位置视为状态,将其动作视为行动。视觉系统 物体检测模型,如 YOLO11等物体检测模型驱动的视觉系统,帮助机器人感知世界的状态 如是否存在障碍物,使其能够安全高效地导航。
  • 库存管理:在供应链物流中,企业使用 MDP 来优化库存水平。 在这里,状态是当前的库存,而行动则是决定重新订购多少产品。奖励 函数将销售利润与存储成本和缺货造成的收入损失进行平衡,这是人工智能在零售业的一个重要应用。 人工智能零售业的重要应用。
  • 医疗保健治疗规划:MDP 协助为慢性病患者设计个性化的治疗方案。 慢性病患者设计个性化治疗方案。通过将患者的健康状况建模为一系列状态,医生可以确定最佳治疗顺序,最大限度地提高长期健康效果。 治疗顺序,从而最大限度地提高长期健康效果。 医学图像分析

作为国家输入的感知

在现代人工智能应用中,MDP 的 "状态 "通常来自高维数据,如视频 馈送。计算机视觉(CV)模型处理 视觉输入来创建决策算法可以理解的结构化状态表示。

下面的Python 代码演示了如何使用预训练的YOLO11 模型从图像中提取状态信息(物体 坐标)。这些数据可以作为基于 MDP 的代理的输入状态。

from ultralytics import YOLO

# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")

# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")

区分相关概念

将 MDP 与人工智能(AI)领域的其他相关术语区分开来很有帮助。 人工智能(AI)领域的其他相关术语加以区分:

  • 强化学习(RL) 虽然经常互换使用,但两者之间的区别非常重要。MDP 是框架或问题 框架或问题陈述,而 RL 则是在过渡概率和奖励函数最初未知的情况下用于解决该问题的方法。 最初并不知道。如 Sutton 和 Barto 的基础文章所述,代理通过试错学习最优策略。 中所述。
  • 隐马尔可夫模型(HMM) 当系统的真实状态无法完全观测,而必须从概率输出中推断时,就会用到 HMM。 输出。相比之下,标准 MDP 假设代理对当前状态完全可见。
  • 深度强化学习(DRL) DRL 将 MDP 与深度学习 (DL) 相结合。 传统的 MDP 求解器难以应对庞大的状态空间(如视频游戏中可能的像素组合数量)。 视频游戏中可能的像素组合数量)。DRL 利用神经网络 对状态值进行近似,从而为在 Gymnasium 等工具中模拟的复杂环境提供解决方案。 体育馆

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入