敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

马尔可夫决策过程 (MDP)

探索马尔可夫决策过程 (MDP) 及其在人工智能、强化学习、机器人和医疗保健决策中的作用。

马尔可夫决策过程 (MDP) 是一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策过程进行建模。它是强化学习 (RL)中的一个基本概念,提供了一种描述环境的正式方法。智能体通过观察环境状态并选择动作与环境交互,目标是随着时间的推移最大化累积奖励信号。其核心思想基于马尔可夫性质,该性质假设未来独立于过去(在给定当前状态的条件下);换句话说,当前状态提供了做出最优决策所需的所有必要信息。

马尔可夫决策过程的工作原理

MDP 由几个关键组件定义,这些组件描述了代理与其环境之间的交互:

  • 状态 (S): 智能体可能处于的所有可能情况或配置的集合。例如,机器人在房间中的位置或产品的库存水平。
  • 动作 (A): 智能体在每个状态下可以采取的所有可能移动的集合。 对于机器人,这可以是向前、向左或向右移动。
  • 转移概率: 采取特定行动后,从当前状态转移到新状态的概率。这反映了环境中的不确定性,例如机器人车轮打滑。
  • 奖励函数:一种信号,指示转换到新状态的即时价值。奖励可以是正面的或负面的,并引导代理朝着期望的结果前进。
  • 策略 (π): 智能体在每个状态下选择动作的策略。解决 MDP 的最终目标是找到一个最优策略,即在长期内最大化总预期奖励的策略。

这个过程是循环的:智能体观察当前状态,根据其策略选择一个动作,获得奖励,然后转移到新的状态。这个循环不断重复,使智能体能够从其经验中学习。

实际应用

MDP 用于建模各种序贯决策问题。

  1. 机器人技术和自主导航:机器人技术中,MDP 可以对机器人如何导航复杂空间进行建模。状态可以是机器人的坐标和方向,而动作是其运动(例如,前进、转弯)。到达目的地可以获得正向奖励,而与障碍物碰撞或使用过多能量则会获得负向奖励。感知系统通常使用计算机视觉 (CV)进行目标检测,从而提供 MDP 所需的状态信息。这对于诸如自动驾驶汽车之类的应用至关重要,这些应用必须根据感官输入不断做出决策。
  2. 库存和供应链管理: 企业可以使用 MDP 来优化库存控制。状态是当前的库存水平,行动是重新订购多少产品,奖励函数平衡了销售利润与持有库存和缺货的成本。这有助于在不确定的需求下做出最佳订购决策,这是 零售业人工智能 的一个关键挑战。诸如 供应链管理协会 等领先组织正在探索此类高级优化方法。

与其他概念的关系

区分 MDP 与 机器学习 (ML) 中的相关概念很有用:

  • 强化学习 (RL): RL 是AI领域,涉及训练智能体做出最佳决策。MDP 提供了数学框架,该框架正式定义了 RL 算法旨在解决的问题。当环境的转换和奖励模型未知时,使用 RL 技术通过试错来学习最佳策略。深度强化学习通过使用深度学习模型来处理复杂的高维状态空间来扩展这一点,如 Sutton 和 Barto 的书等基础文本中所述。
  • 隐马尔可夫模型(HMM):与状态完全可观察的MDP不同,当状态不可直接观察但必须从一系列观察中推断时,使用隐马尔可夫模型(HMM)。HMM用于分析和推理,而不是决策,因为它们不包括动作或奖励。
  • 动态规划: 当MDP的完整而准确的模型(即,已知的转移概率和奖励)可用时,可以使用诸如值迭代和策略迭代之类的动态规划方法来求解它,以找到最佳策略。

开发 MDP 的解决方案通常涉及使用 RL 库(如 Gymnasium)和 ML 框架(如 PyTorchTensorFlow)。这些系统的感知组件(用于识别当前状态)可以使用像 Ultralytics YOLO11 这样的模型构建。从管理 训练数据模型部署 的整个工作流程可以使用像 Ultralytics HUB 这样的平台进行简化,并使用强大的 MLOps 实践进行管理。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板