Group Relative Policy Optimization (GRPO)

探索组相对策略优化 (GRPO)。了解这种内存高效、无需批判器的强化学习算法如何增强 LLM 推理并降低训练成本。

组相对策略优化 (GRPO) 是一种内存高效的强化学习算法，旨在增强大型语言模型 (LLMs) 和更广泛的人工智能 (AI) 系统的推理能力。GRPO 首次在 2024 年的 DeepSeekMath 论文中提出，它通过消除对单独价值网络（评论者模型）的需求，改进了传统的优化方法。相反，它会对来自同一提示词的一组生成响应的奖励进行归一化处理。通过评估组内响应与其同类项的相对表现，GRPO 在显著降低计算开销的同时，提升了现代深度学习 (DL) 架构处理复杂推理任务的性能。

Link to this sectionGRPO 与 PPO 的区别#

While GRPO shares similarities with Proximal Policy Optimization (PPO)—a standard optimization algorithm often used in reinforcement learning from human feedback (RLHF)—the two differ significantly in architecture. PPO requires a secondary "critic" model that runs parallel to the main policy network to estimate the value of a given state. This nearly doubles the memory required during the training phase.

相比之下，GRPO 是一种无需评论者的算法。通过对单个提示词采样多个输出，并使用基于规则的奖励系统或验证器进行评分，GRPO 通过对该特定组内的分数进行归一化来计算优势。这种相对比较充当了基准，节省了原本会被价值网络占用的海量内存，并加速了整体模型训练。

Link to this sectionGRPO 的实际应用#

GRPO 推动了近期在生成式 AI 和自然语言处理领域的几项突破。两个值得注意的应用包括：

数学推理模型： 在广受引用的 DeepSeek-R1 发布和 DeepSeekMath 中，GRPO 被用于激励模型发展长思维链推理和自我验证能力，其表现与 OpenAI 的 o1 等专有模型相当。通过奖励正确的最终答案和格式，该算法使模型能够在无需对人工标注数据进行大量微调的情况下，自发发现高级问题解决策略。
代码生成与代理逻辑： 对于编写代码或支持自主代理工作流的模型，评估绝对正确性具有挑战性。GRPO 允许模型通过执行代码变体，并根据编译成功或测试用例通过情况对其进行相对评分来学习，从而加速了高度可靠的 AI 编码助手部署。

Link to this section在 PyTorch 中实现 GRPO 概念#

GRPO 的核心是通过归一化奖励来计算响应的相对优势。这是一个基础的 PyTorch 实现示例，展示了如何使用标准张量运算进行这种归一化：



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Link to this section利用智能优化推进 AI 发展#

正如 GRPO 重新定义了文本生成的效率一样，先进的机器学习 (ML) 技术也在不断重塑视觉感知。优化架构和损失函数使开发者能够在所有领域构建更轻、更快的模型。

对于最先进的计算机视觉任务，探索端到端优化同样至关重要。例如，Ultralytics YOLO26 引入了原生无 NMS 的架构和受 LLM 研究启发的混合优化器，极大地改善了边缘部署。希望利用高效计算机视觉工作流的开发者可以使用 Ultralytics Platform 轻松构建、训练和部署模型。这一云端工具简化了复杂的数据集管理和超参数调优，助力实现稳健的实时视觉应用。