深圳Yolo 视觉
深圳
立即加入
词汇表

马尔可夫决策过程 (MDP)

探索马尔可夫决策过程 (MDP) 的基础知识。了解 MDP 如何驱动强化学习,以及 Ultralytics YOLO26 如何提供实时状态数据。

马尔可夫决策过程 (MDP) 是一种数学框架,用于在结果部分随机、部分受决策者控制的情况下建模决策制定。它是强化学习 (RL) 的基本蓝图,为AI智能体提供了一种与环境交互以实现特定目标的结构化方式。与依赖静态标记数据集的标准监督学习不同,MDP侧重于序列决策,其中当前行动会影响未来的可能性。

管理发展计划的核心组成部分

要理解马尔可夫决策过程(MDP)的运作方式,将其可视化为代理与环境之间交互的循环会有所帮助。这个循环由五个关键组成部分定义:

  • 状态 (State):环境的当前情况或配置。 在 自动驾驶汽车中,状态可能包括 汽车的速度、位置以及由 计算机视觉 (CV)传感器detect到的附近障碍物。
  • 行动: 代理可用的所有可能移动或选择的集合。这通常被称为 行动空间,它可以是离散的(例如,向左移动,向右移动)或连续的(例如,调整转向角)。
  • 转移概率 (Transition Probability):这定义了在采取特定行动后从一个状态转移到另一个状态的可能性。 它解释了现实世界的不确定性和动态性,从而将MDP与确定性系统区分开来。
  • 奖励 (Reward):每次行动后收到的数值信号。 奖励函数至关重要,因为它指导智能体的行为——正向奖励鼓励期望的行动,而负向奖励(惩罚)则阻止错误。
  • 折扣因子:一个决定未来奖励相对于即时奖励重要性的值。它帮助智能体优先考虑长期规划而非短期满足,这是战略优化的核心概念。

实际应用

MDPs 充当许多先进技术背后的决策引擎,使系统能够驾驭复杂、动态的环境。

  • 机器人控制 (Robotics Control):机器人AI中,MDPs使机器能够学习 复杂的运动技能。例如,机械臂使用MDPs来确定拾取物体并避免碰撞的最佳路径。 状态是关节角度和物体位置,这些信息来源于 3D物体检测,而奖励则基于 成功的抓取速度。
  • 库存管理:零售商使用MDPs进行库存优化。在这里,状态代表当前库存水平,行动是重新订购决策,奖励是根据利润减去存储和缺货成本计算的。
  • 医疗治疗:在个性化医疗中,MDP(马尔可夫决策过程)有助于设计动态治疗方案。通过将患者健康指标建模为状态,将药物建模为行动,医生可以利用预测建模来最大化患者的长期健康结果。

与强化学习的关系

虽然密切相关,但区分MDP和强化学习非常重要。MDP是形式化问题陈述——环境的数学模型。强化学习是当内部动力学(转移概率)不完全已知时,用于解决该问题的方法。强化学习算法,如Q-learning,与MDP交互,通过试错学习最佳策略。

MDPs 中的视觉观察

在现代AI应用中,MDP的“状态”通常来源于视觉数据。高速感知模型充当系统的“眼睛”,将原始摄像头输入转换为MDP可以处理的结构化数据。例如,Ultralytics YOLO26可以提供实时对象坐标,这些坐标作为决策智能体的状态输入。

以下示例演示了如何使用Python从图像中提取状态表示(边界框),然后将其输入到MDP策略中。

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

通过将强大的视觉模型与MDP框架集成,开发者可以构建不仅感知世界,还能在其中做出智能、自适应决策的系统。这种协同作用对于自主系统智能制造的进步至关重要。

让我们一起共建AI的未来!

开启您的机器学习未来之旅