探索马尔可夫决策过程(MDP)的基础原理。了解MDP如何驱动强化学习,Ultralytics 如何提供实时状态数据。
马尔可夫决策过程(MDP)是一种数学框架,用于建模在结果部分随机、部分受决策者控制的情境下的决策过程。它是强化学习(RL)的基础蓝图,为人工智能代理提供了一种结构化的方式,使其能够与环境交互以实现特定目标。 与依赖静态标注数据集的标准监督学习不同,MDP专注于序列决策过程——当前行动将影响未来可能性。
要理解多状态决策过程(MDP)的运作机制,将其视作智能体与其环境之间的交互循环有助于理解。该循环由五个关键要素构成:
多决策过程(MDPs)作为众多先进技术背后的决策引擎,使系统能够在复杂多变的环境中自主导航。
尽管密切相关,但区分马尔可夫决策过程(MDP)与强化学习(RL)至关重要。MDP是 形式化的问题陈述——环境的数学模型。 强化学习则是 在内部动态(状态转移概率)不完全已知时用于解决该问题的 方法。RL算法(如Q学习) 通过与MDP交互,在试错过程中学习最佳策略。
在现代人工智能应用中,多状态决策过程(MDP)的"状态"通常源自视觉数据。高速感知模型如同系统的眼睛,将原始摄像头数据转化为MDP可处理的结构化信息。例如Ultralytics 实时提供目标坐标,这些坐标作为决策代理的状态输入。
以下示例演示了如何Python从图像中提取状态表示(边界框), 该表示随后可输入到MDP策略中。
from ultralytics import YOLO
# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")
通过将强大的视觉模型与多状态决策框架(MDP)相结合,开发者能够构建不仅能感知世界,还能在其中做出智能、自适应决策的系统。这种协同作用对于推动自主系统 和智能制造的发展至关重要。