Group Relative Policy Optimization (GRPO)
探索组相对策略优化 (GRPO)。了解这种内存高效、无需评估器的 RL 算法如何增强 LLM 推理能力并降低训练成本。
组相对策略优化 (GRPO) 是一种内存高效的 强化学习 算法,旨在增强 大语言模型 (LLMs) 以及更广泛的 人工智能 (AI) 系统的推理能力。GRPO 最早出现在 2024 年的 DeepSeekMath 论文 中,它通过移除对独立价值网络(评论家模型)的需求,改进了传统的优化方法。相反,它会对来自同一提示词的一组生成响应的奖励进行归一化处理。通过评估组内响应相对于其他响应的表现,GRPO 在现代 深度学习 (DL) 架构中显著降低了计算开销,同时提升了复杂推理任务的性能。
GRPO 与 PPO 的区别
While GRPO shares similarities with Proximal Policy Optimization (PPO)—a standard optimization algorithm often used in reinforcement learning from human feedback (RLHF)—the two differ significantly in architecture. PPO requires a secondary "critic" model that runs parallel to the main policy network to estimate the value of a given state. This nearly doubles the memory required during the training phase.
相比之下,GRPO 是一种无评论家算法。通过对单个提示词采样多个输出,并使用 基于规则的奖励系统 或验证器进行评分,GRPO 通过对特定组内的分数进行归一化来计算优势。这种相对比较充当了基准,节省了价值网络本应占用的巨大内存,并加速了整体 模型训练。
GRPO 的实际应用
GRPO 推动了 生成式 AI 和 自然语言处理 领域的几个近期突破。两个值得注意的应用包括:
- 数学推理模型: 在被广泛引用的 DeepSeek-R1 发布 和 DeepSeekMath 中,GRPO 被用于激励模型开发长 思维链 推理和自我验证,其性能足以媲美 OpenAI 的 o1 等专有模型。通过奖励正确的最终答案和格式,该算法使模型能够在无需对人类标注数据进行大规模 微调 的情况下,自发发现高级问题解决策略。
- 代码生成与代理逻辑: 对于编写代码或驱动自主 代理工作流 的模型来说,评估绝对正确性具有挑战性。GRPO 允许模型通过执行代码变体并基于编译成功率或测试用例通过情况进行相对评分来学习,从而加速高可靠性 AI 编程助手的部署。
在 PyTorch 中实现 GRPO 概念
GRPO 的核心是通过对奖励进行归一化来计算响应的相对优势。以下是一个基础的 PyTorch 实现,演示了如何使用标准的 张量运算 来进行这种归一化:
def compute_grpo_advantages(rewards):
# 'rewards' is a tensor of shape (batch_size, group_size)
group_mean = rewards.mean(dim=1, keepdim=True)
group_std = rewards.std(dim=1, keepdim=True)
# Normalize rewards within the group to calculate relative advantages
advantages = (rewards - group_mean) / (group_std + 1e-8)
return advantages通过智能优化推进 AI 发展
正如 GRPO 重新定义了文本生成的效率一样,先进的 机器学习 (ML) 技术也在不断重塑 视觉感知。优化架构和 损失函数 使开发者能够跨所有领域构建更轻量、更快速的模型。
对于最先进的 计算机视觉任务,探索端到端优化同样至关重要。例如,Ultralytics YOLO26 引入了一种原生无 NMS 的架构和受 LLM 研究启发的 混合优化器,显著改善了边缘部署。希望利用高效 计算机视觉 工作流的开发者可以使用 Ultralytics Platform 轻松构建、训练和部署模型。这一基于云的工具简化了复杂的数据集管理和 超参数调优,助力实现稳健的实时视觉应用。






