术语表

马尔可夫决策过程(MDP)

了解马尔可夫决策过程(MDP)及其在人工智能、强化学习、机器人和医疗决策中的作用。

马尔可夫决策过程(Markov Decision Process,MDP)是一个数学框架,用于模拟在结果部分随机、部分受决策者控制的情况下的决策。它是强化学习(RL)的基础概念,提供了一种描述环境的正式方法。代理通过观察环境状态并选择行动来与环境互动,其目标是随着时间的推移最大化累积奖励信号。其核心理念基于马尔可夫特性,即假设在当前情况下,未来与过去无关;换句话说,当前状态提供了做出最优决策的所有必要信息。

马尔可夫决策过程的工作原理

MDP 由描述代理与其环境之间交互作用的几个关键组件定义:

  • 状态(S):代理可能处于的所有情况或配置的集合。例如,机器人在房间中的位置或产品的库存水平。
  • 行动 (A):代理在每个状态下可能采取的所有行动的集合。对于机器人来说,这可能是向前、向左或向右移动。
  • 过渡概率:采取特定行动后从当前状态转移到新状态的概率。这反映了环境中的不确定性,例如机器人车轮打滑。
  • 奖励功能:表示过渡到新状态的直接价值的信号。奖励可以是积极的,也可以是消极的,它引导代理走向理想的结果。
  • 策略 (π):代理在每个状态下选择行动的策略。求解 MDP 的最终目标是找到最优策略--使长期总预期收益最大化。

这个过程是循环往复的:代理观察当前状态,根据策略选择行动,获得奖励,然后进入新的状态。这样循环往复,让代理不断吸取经验教训。

实际应用

MDP 可用于模拟各种顺序决策问题。

  1. 机器人和自主导航机器人学中,MDP 可以模拟机器人如何在复杂空间中导航。状态可以是机器人的坐标和方向,而动作则是机器人的运动(如前进、转弯)。到达目的地的奖励可以是正的,而与障碍物相撞或消耗过多能量的奖励则是负的。感知系统通常使用计算机视觉(CV)进行物体检测,提供 MDP 所需的状态信息。这对于自动驾驶汽车等必须不断根据感知输入做出决策的应用来说至关重要。
  2. 库存和供应链管理:企业可以使用 MDP 来优化库存控制。状态是当前的库存水平,行动是重新订购多少产品,奖励函数是平衡销售利润与库存和缺货成本。这有助于在需求不确定的情况下做出最佳订购决策,而这正是零售业人工智能面临的一个关键挑战。供应链管理协会(Association for Supply Chain Management)等领先组织都在探索这种先进的优化方法。

与其他概念的关系

将 MDP 与机器学习 (ML) 中的相关概念区分开来是很有用的:

  • 强化学习(RL):强化学习(RL)是人工智能的一个领域,涉及训练代理做出最优决策。MDP 提供了正式定义 RL 算法所要解决的问题的数学框架。当环境的转换和奖励模型未知时,RL 技术可用于通过试错学习最优策略。深度强化学习通过使用深度学习模型来处理复杂的高维状态空间,对这一技术进行了扩展。
  • 隐马尔可夫模型(HMM):与状态完全可观测的 MDP 不同,隐马尔可夫模型(HMM)用于状态不直接可见,而必须从观测序列中推断的情况。HMM 用于分析和推理,而非决策,因为它们不包括行动或奖励。
  • 动态编程:当有了完整准确的 MDP 模型(即已知的过渡概率和奖励)后,就可以使用动态编程方法(如值迭代和策略迭代)来求解,从而找到最优策略。

开发 MDPs 解决方案通常需要使用Gymnasium等 RL 库和PyTorchTensorFlow 等 ML 框架。这些系统中识别当前状态的感知组件可以使用Ultralytics YOLO11 等模型来构建。从管理训练数据模型部署,整个工作流程都可以使用Ultralytics HUB等平台进行简化,并采用强大的MLOps实践进行管理。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板