遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Group Relative Policy Optimization (GRPO)

探索组相对策略优化 (GRPO)。了解这种内存高效、无需评估器的 RL 算法如何增强 LLM 推理能力并降低训练成本。

组相对策略优化 (GRPO) 是一种内存高效的 强化学习 算法,旨在增强 大语言模型 (LLMs) 以及更广泛的 人工智能 (AI) 系统的推理能力。GRPO 最早出现在 2024 年的 DeepSeekMath 论文 中,它通过移除对独立价值网络(评论家模型)的需求,改进了传统的优化方法。相反,它会对来自同一提示词的一组生成响应的奖励进行归一化处理。通过评估组内响应相对于其他响应的表现,GRPO 在现代 深度学习 (DL) 架构中显著降低了计算开销,同时提升了复杂推理任务的性能。

GRPO 与 PPO 的区别

While GRPO shares similarities with Proximal Policy Optimization (PPO)—a standard optimization algorithm often used in reinforcement learning from human feedback (RLHF)—the two differ significantly in architecture. PPO requires a secondary "critic" model that runs parallel to the main policy network to estimate the value of a given state. This nearly doubles the memory required during the training phase.

相比之下,GRPO 是一种无评论家算法。通过对单个提示词采样多个输出,并使用 基于规则的奖励系统 或验证器进行评分,GRPO 通过对特定组内的分数进行归一化来计算优势。这种相对比较充当了基准,节省了价值网络本应占用的巨大内存,并加速了整体 模型训练

GRPO 的实际应用

GRPO 推动了 生成式 AI自然语言处理 领域的几个近期突破。两个值得注意的应用包括:

  1. 数学推理模型: 在被广泛引用的 DeepSeek-R1 发布 和 DeepSeekMath 中,GRPO 被用于激励模型开发长 思维链 推理和自我验证,其性能足以媲美 OpenAI 的 o1 等专有模型。通过奖励正确的最终答案和格式,该算法使模型能够在无需对人类标注数据进行大规模 微调 的情况下,自发发现高级问题解决策略。
  2. 代码生成与代理逻辑: 对于编写代码或驱动自主 代理工作流 的模型来说,评估绝对正确性具有挑战性。GRPO 允许模型通过执行代码变体并基于编译成功率或测试用例通过情况进行相对评分来学习,从而加速高可靠性 AI 编程助手的部署。

在 PyTorch 中实现 GRPO 概念

GRPO 的核心是通过对奖励进行归一化来计算响应的相对优势。以下是一个基础的 PyTorch 实现,演示了如何使用标准的 张量运算 来进行这种归一化:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

通过智能优化推进 AI 发展

正如 GRPO 重新定义了文本生成的效率一样,先进的 机器学习 (ML) 技术也在不断重塑 视觉感知。优化架构和 损失函数 使开发者能够跨所有领域构建更轻量、更快速的模型。

对于最先进的 计算机视觉任务,探索端到端优化同样至关重要。例如,Ultralytics YOLO26 引入了一种原生无 NMS 的架构和受 LLM 研究启发的 混合优化器,显著改善了边缘部署。希望利用高效 计算机视觉 工作流的开发者可以使用 Ultralytics Platform 轻松构建、训练和部署模型。这一基于云的工具简化了复杂的数据集管理和 超参数调优,助力实现稳健的实时视觉应用。

Explore solutions

Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 带入智慧农业。助力作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型在汽车领域应用计算机视觉。视觉 AI 提升道路安全、驾驶辅助和车辆自动化水平,实现更智能的道路。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型构建医疗健康解决方案。医疗领域的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监测。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型重构零售业。视觉 AI 助力库存跟踪、货架监测、队列管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型赋能更智能的机器。机器人视觉 AI 可驱动自主导航、感知、目标追踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造流程。视觉 AI 驱动质量控制、缺陷检测、PPE 合规性检查和装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分拣、车辆跟踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 带入智慧农业。助力作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型在汽车领域应用计算机视觉。视觉 AI 提升道路安全、驾驶辅助和车辆自动化水平,实现更智能的道路。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型构建医疗健康解决方案。医疗领域的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监测。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型重构零售业。视觉 AI 助力库存跟踪、货架监测、队列管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型赋能更智能的机器。机器人视觉 AI 可驱动自主导航、感知、目标追踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造流程。视觉 AI 驱动质量控制、缺陷检测、PPE 合规性检查和装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分拣、车辆跟踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 带入智慧农业。助力作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型在汽车领域应用计算机视觉。视觉 AI 提升道路安全、驾驶辅助和车辆自动化水平,实现更智能的道路。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型构建医疗健康解决方案。医疗领域的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监测。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型重构零售业。视觉 AI 助力库存跟踪、货架监测、队列管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型赋能更智能的机器。机器人视觉 AI 可驱动自主导航、感知、目标追踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造流程。视觉 AI 驱动质量控制、缺陷检测、PPE 合规性检查和装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分拣、车辆跟踪和实时仓库安全监控。

了解详情

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅