了解过程奖励模型(PRM)如何提升人工智能的推理能力。探索强化学习反馈(RLHF)中的步骤级反馈如何为大型语言模型(LLMs)Ultralytics 确保逻辑清晰、安全可靠的推理路径。
评估复杂的人工智能模型 不仅需要检查最终答案是否正确。一种高度专业化的 强化学习技术会为人工智能在执行任务过程中 的每个中间步骤分配数学分数,从而提供 密集的、逐步反馈。这种精细化的方法确保模型 不仅能到达正确的目的地,还能遵循逻辑清晰、安全且可验证的路径抵达那里。
在奖励建模的更广泛背景下, 区分基于过程的监督与基于结果的监督至关重要。传统的结果奖励模型(ORMs) 会在生成过程的最后阶段提供一个单一且稀疏的奖励。虽然ORMs更容易训练,但在复杂任务中却存在 一个重大缺陷:它们可能会无意中奖励那些通过错误 逻辑或幻觉得出正确答案的模型。
过程奖励模型(PRM)通过评估整个推理轨迹来解决这一问题。正如OpenAI在以下论文等基础研究中推广的那样: 《让我们一步步验证》等论文中推广的,PRM 会对每个思维或动作进行分步监督。这是 先进 基于人类反馈的强化学习(RLHF) 管道的关键组成部分,因为它利用 近端策略优化(PPO)等算法,主动引导策略优化。
PRM正在改变 大型语言模型(LLM)和 自主系统在高风险环境中的运作方式:
训练PRM需要管理海量数据集,其中每个子步骤都需要由人类或更强大的AI模型进行评估。 Ultralytics 等基于云的工具, 这些密集的数据标注工作流的管理变得更加简单, 这些工具能够简化项目组织和部署流程。
在推理过程中或
模型优化,PRM
会根据步骤链计算累计损失或收益。以下Python 使用
torch 说明了如果中间步骤失败,分阶段奖励将如何受到惩罚,这是一种常见的方法
常见于 PyTorch文档 用于序列评分:
import torch
# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)
# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()
print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates
通过确保每个中间步骤都符合预期行为,开发人员能够部署高度可靠的 系统。将流程级监控与持续的 超参数调优相结合,使新一代 模型能够真正安全、有效地对问题进行推理。
开启您的机器学习未来之旅