遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Process Reward Model (PRM)

探索过程奖励模型 (PRM) 如何提升 AI 推理能力。了解 RLHF 中的步骤级反馈如何确保 LLM 和 Ultralytics YOLO26 的路径既合乎逻辑又安全。

评估复杂的 人工智能 模型需要的不仅仅是检查最终答案是否正确。一种高度专业化的 强化学习 技术会为 AI 在任务执行过程中采取的每个中间步骤分配数学评分,从而提供 密集的步骤级反馈。这种细粒度的方法确保模型不仅能到达正确的目标,而且还能遵循合乎逻辑、安全且可验证的路径到达那里。

Link to this section过程奖励模型 vs. 结果奖励模型#

奖励建模 的更广泛背景下,区分基于过程的监督和基于结果的监督非常重要。传统的结果奖励模型 (ORM) 仅在生成过程结束时提供单一的稀疏奖励。虽然 ORM 更容易训练,但在复杂任务中它们存在一个重大缺陷:它们可能会无意中奖励那些通过错误逻辑或 幻觉 得出正确答案的模型。

过程奖励模型 (PRM) 通过评估整个推理轨迹来解决这个问题。正如 OpenAI 研究 在诸如 Let's Verify Step by Step 等论文中推广的那样,PRM 对每个思维或动作应用 步骤监督。这是高级 人类反馈强化学习 (RLHF) 流水线的关键组成部分,因为它会使用 近端策略优化 (PPO) 等算法主动引导策略优化。

Link to this section实际应用#

PRM 正在改变 大语言模型 (LLM) 和自主系统在高风险环境下的运作方式:

  • 数学推理 通过逐行评估等式,PRM 允许模型使用 Best-of-N (BoN) 采样蒙特卡洛树搜索 (MCTS) 等算法来探索多种解决方案路径,并选择逻辑上最合理的序列。
  • 代码生成 在生成软件时,仅仅检查最终脚本是否能运行是不够的。PRM 提供过程监督,对单个函数和逻辑块进行评分,以确保代码高效、安全且易于维护。
  • Operations Research and Visual Agents: Recent advances in 2025 and 2026 have expanded PRMs beyond text. For example, operations research now utilizes PRMs to validate complex scheduling algorithms. Similarly, visual AI agents equipped with robust computer vision engines like Ultralytics YOLO26 receive step-by-step rewards for navigating physical environments, rather than just a single reward for reaching a destination.

Link to this section实施步骤级反馈#

Training a PRM requires managing extensive datasets where each sub-step is evaluated by humans or stronger AI models. Managing these intensive data annotation workflows is made simpler with cloud-based tools like the Ultralytics Platform, which streamline project organization and deployment.

在推理或 模型优化 期间,PRM 会根据步骤链计算累积损失或奖励。以下使用 torch 的概念性 Python 代码片段展示了如果中间步骤失败,步骤级奖励是如何受到惩罚的,这是 PyTorch 文档 中用于序列评分的常见方法:

import torch

# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)

# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()

print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates

通过确保每个中间步骤都与预期行为一致,开发人员可以部署高度可靠的系统。将过程级监督与持续的 超参数调优 相结合,使下一代模型能够真正安全有效地推理问题。

Explore solutions

Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅