Group Relative Policy Optimization (GRPO)

グループ相対方策最適化（GRPO）を紹介します。このメモリ効率が良く、批評家（Critic）不要な強化学習アルゴリズムが、どのようにLLMの推論を強化し、学習コストを削減するかを学びましょう。

Group Relative Policy Optimization (GRPO) is a memory-efficient reinforcement learning algorithm developed to enhance the reasoning capabilities of Large Language Models (LLMs) and broader Artificial Intelligence (AI) systems. First introduced in the 2024 DeepSeekMath paper, GRPO improves upon traditional optimization methods by removing the need for a separate value network (critic model). Instead, it normalizes the rewards of a group of generated responses derived from the same prompt. By evaluating responses relative to their peers within the group, GRPO dramatically reduces computational overhead while boosting performance on complex reasoning tasks in modern Deep Learning (DL) architectures.

Link to this sectionGRPOとPPOの違い#

While GRPO shares similarities with Proximal Policy Optimization (PPO)—a standard optimization algorithm often used in reinforcement learning from human feedback (RLHF)—the two differ significantly in architecture. PPO requires a secondary "critic" model that runs parallel to the main policy network to estimate the value of a given state. This nearly doubles the memory required during the training phase.

対照的に、GRPOはクリティックフリーなアルゴリズムです。単一のプロンプトに対して複数の出力をサンプリングし、ルールベースの報酬システムや検証器を使用してそれらをスコアリングすることで、GRPOはその特定のグループ内でのスコアを正規化して利得（advantage）を計算します。この相対的な比較がベースラインとして機能するため、価値ネットワークが占有していた大量のメモリを節約し、全体的なモデルトレーニングを加速させます。

Link to this sectionGRPOの現実世界での応用#

GRPOは、生成AI および自然言語処理における近年のいくつかのブレイクスルーを後押ししてきました。2つの注目すべき応用例は以下の通りです。

数学的推論モデル: 広く引用されている DeepSeek-R1リリースやDeepSeekMathにおいて、GRPOはモデルが長期的な思考の連鎖 (chain-of-thought) による推論や自己検証を行うよう促すために使用され、OpenAIのo1 のようなプロプライエタリモデルと同等のパフォーマンスを達成しました。正しい最終回答とフォーマットに対して報酬を与えることで、このアルゴリズムは、人間が注釈を付けたデータを用いた大規模なファインチューニングを行うことなく、モデルが高度な問題解決戦略を自律的に発見することを可能にしました。
コード生成とエージェントロジック: コードを記述するモデルや、自律的なエージェントワークフローを強化するモデルにとって、絶対的な正解を評価することは困難です。GRPOは、コードのバリエーションを実行し、コンパイルの成功やテストケースの通過に基づいて相対的にスコアリングすることでモデルが学習できるようにし、信頼性の高いAIコーディングアシスタントの導入を加速させます。

Link to this sectionPyTorchでのGRPOコンセプトの実装#

At its core, GRPO calculates the relative advantage of responses by normalizing their rewards. Here is a basic PyTorch implementation demonstrating this normalization using standard tensor operations:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Link to this sectionスマートな最適化でAIを進化させる#

GRPOがテキスト生成の効率を再定義するように、高度な機械学習 (ML) 手法は常に視覚的知覚の領域を形作り直しています。アーキテクチャと損失関数を最適化することで、開発者はあらゆるドメインにおいて、より軽量で高速なモデルを構築できるようになります。

最先端のコンピュータビジョンタスクにおいては、エンドツーエンドの最適化を検討することも同様に重要です。例えば、Ultralytics YOLO26 は、LLM研究から着想を得たネイティブなNMSフリーのアーキテクチャとハイブリッドオプティマイザを導入しており、エッジデバイスへの導入を劇的に改善しています。効率的なコンピュータビジョンワークフローを活用したい開発者は、Ultralytics Platform を使用して簡単にモデルの構築、トレーニング、デプロイを行うことができます。このクラウドベースのツールは、堅牢なリアルタイムビジョンアプリケーションのための複雑なデータセット管理やハイパーパラメータチューニングを簡素化します。

Explore solutions

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

Group Relative Policy Optimization (GRPO)

Link to this sectionGRPOとPPOの違い#

Link to this sectionGRPOの現実世界での応用#

Link to this sectionPyTorchでのGRPOコンセプトの実装#

Link to this sectionスマートな最適化でAIを進化させる#

Explore solutions

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

AIの未来を共に築き上げましょう！